Upload oculus_unified_model/configuration_oculus.py with huggingface_hub

Browse files

Files changed (1) hide show

oculus_unified_model/configuration_oculus.py +49 -32

oculus_unified_model/configuration_oculus.py CHANGED Viewed

@@ -1,8 +1,13 @@
 """
 Oculus Configuration
-HuggingFace-compatible configuration for the unified Oculus model.
-Supports Isaac 0.2 features: Thinking Traces, Focus/Zoom, Structured Output, Complex OCR, Desktop UI.
 """
 from typing import Optional, Dict, Any, List
@@ -13,33 +18,33 @@ class OculusConfig(PretrainedConfig):
     """
     Configuration class for Oculus vision-language model.
-    Architecture: DINOv3 + SigLIP2 + LFM2.5-1.2B
-    Isaac 0.2 Features:
-    - Reasoning via Thinking Traces
-    - Perceptive Tool Calling + Focus (Zoom & Crop)
-    - Structured Outputs (JSON)
-    - Complex OCR
-    - Desktop UI Understanding
     """
     model_type = "oculus"
     def __init__(
         self,
-        # Vision encoder settings (DINOv3 + SigLIP2)
-        dinov3_model_id: str = "facebook/dinov3-vitl16-pretrain-lvd1689m",
-        siglip_model_id: str = "google/siglip2-so400m-patch16-naflex",
-        dinov3_hidden_size: int = 1024,   # DINOv3 ViT-L/16 output dim
-        siglip_hidden_size: int = 1152,   # SigLIP2 SO400M output dim
         # Projector settings
         projector_hidden_dim: int = 4352,
         num_vision_tokens: int = 64,
-        # Language model settings (LFM2.5-1.2B)
-        lm_model_id: str = "LiquidAI/LFM2.5-1.2B-Base",
         lm_hidden_size: int = 1536,
         vocab_size: int = 131072,
         max_position_embeddings: int = 32768,
@@ -48,32 +53,36 @@ class OculusConfig(PretrainedConfig):
         thinking_token: str = "<think>",
         thinking_end_token: str = "</think>",
         max_thinking_tokens: int = 256,
-        thinking_style: str = "structured",  # "structured", "verbose", "minimal"
         # Focus System (Perceptive Tool Calling)
         enable_focus: bool = True,
         focus_token: str = "<focus>",
         focus_end_token: str = "</focus>",
         max_focus_regions: int = 4,
-        focus_min_size: int = 64,  # Minimum crop size in pixels
-        auto_focus_threshold: float = 0.7,  # Confidence threshold to trigger focus
         # Structured Output
         structured_output_enabled: bool = True,
         json_token: str = "<json>",
         json_end_token: str = "</json>",
         # OCR Settings
         ocr_enabled: bool = True,
-        ocr_languages: List[str] = None,  # None = auto-detect
         ocr_confidence_threshold: float = 0.5,
         # Desktop UI Understanding
         ui_understanding_enabled: bool = True,
-        ui_element_classes: int = 50,  # button, text_field, checkbox, etc.
         # Output mode settings
-        output_mode: str = "text",  # "text", "point", "box", "polygon", "json"
         num_detection_classes: int = 80,
         num_segmentation_classes: int = 150,
@@ -86,20 +95,25 @@ class OculusConfig(PretrainedConfig):
     ):
         super().__init__(**kwargs)
-        # Vision encoders
-        self.dinov3_model_id = dinov3_model_id
-        self.siglip_model_id = siglip_model_id
-        self.dinov3_hidden_size = dinov3_hidden_size
-        self.siglip_hidden_size = siglip_hidden_size
-        self.fused_vision_dim = dinov3_hidden_size + siglip_hidden_size
         # Projector
         self.projector_hidden_dim = projector_hidden_dim
         self.num_vision_tokens = num_vision_tokens
-        # Language model (LFM2.5)
-        self.lm_model_id = lm_model_id
         self.lm_hidden_size = lm_hidden_size
         self.vocab_size = vocab_size
         self.max_position_embeddings = max_position_embeddings
@@ -122,6 +136,10 @@ class OculusConfig(PretrainedConfig):
         self.structured_output_enabled = structured_output_enabled
         self.json_token = json_token
         self.json_end_token = json_end_token
         # OCR
         self.ocr_enabled = ocr_enabled
@@ -154,5 +172,4 @@ class OculusConfig(PretrainedConfig):
         return output
-# Register for auto-loading
 OculusConfig.register_for_auto_class()

 """
 Oculus Configuration
+Oceanir-Oculus OO1 Architecture configuration.
+Hybrid-reasoning vision-language model with:
+- Reasoning via Thinking Traces
+- Perceptive Tool Calling + Focus (Zoom & Crop)
+- Structured Outputs
+- Complex OCR
+- Desktop UI Understanding
 """
 from typing import Optional, Dict, Any, List
     """
     Configuration class for Oculus vision-language model.
+    Oceanir-Oculus OO1 Architecture - hybrid vision-language model
+    optimized for visual reasoning on commodity GPUs and edge devices.
     """
     model_type = "oculus"
     def __init__(
         self,
+        # Architecture
+        architecture_name: str = "Oceanir-Oculus OO1",
+        # Vision encoder settings
+        vision_hidden_size: int = 1024,
+        vision_num_layers: int = 24,
+        vision_num_heads: int = 16,
+        image_size: int = 224,
+        patch_size: int = 16,
         # Projector settings
+        fused_vision_dim: int = 2176,
         projector_hidden_dim: int = 4352,
         num_vision_tokens: int = 64,
+        # Language model settings
         lm_hidden_size: int = 1536,
+        lm_num_layers: int = 16,
+        lm_num_heads: int = 24,
         vocab_size: int = 131072,
         max_position_embeddings: int = 32768,
         thinking_token: str = "<think>",
         thinking_end_token: str = "</think>",
         max_thinking_tokens: int = 256,
+        thinking_style: str = "structured",
         # Focus System (Perceptive Tool Calling)
         enable_focus: bool = True,
         focus_token: str = "<focus>",
         focus_end_token: str = "</focus>",
         max_focus_regions: int = 4,
+        focus_min_size: int = 64,
+        auto_focus_threshold: float = 0.7,
         # Structured Output
         structured_output_enabled: bool = True,
         json_token: str = "<json>",
         json_end_token: str = "</json>",
+        box_token: str = "<box>",
+        box_end_token: str = "</box>",
+        point_token: str = "<point>",
+        point_end_token: str = "</point>",
         # OCR Settings
         ocr_enabled: bool = True,
+        ocr_languages: List[str] = None,
         ocr_confidence_threshold: float = 0.5,
         # Desktop UI Understanding
         ui_understanding_enabled: bool = True,
+        ui_element_classes: int = 50,
         # Output mode settings
+        output_mode: str = "text",
         num_detection_classes: int = 80,
         num_segmentation_classes: int = 150,
     ):
         super().__init__(**kwargs)
+        # Architecture
+        self.architecture_name = architecture_name
+        # Vision
+        self.vision_hidden_size = vision_hidden_size
+        self.vision_num_layers = vision_num_layers
+        self.vision_num_heads = vision_num_heads
+        self.image_size = image_size
+        self.patch_size = patch_size
         # Projector
+        self.fused_vision_dim = fused_vision_dim
         self.projector_hidden_dim = projector_hidden_dim
         self.num_vision_tokens = num_vision_tokens
+        # Language model
         self.lm_hidden_size = lm_hidden_size
+        self.lm_num_layers = lm_num_layers
+        self.lm_num_heads = lm_num_heads
         self.vocab_size = vocab_size
         self.max_position_embeddings = max_position_embeddings
         self.structured_output_enabled = structured_output_enabled
         self.json_token = json_token
         self.json_end_token = json_end_token
+        self.box_token = box_token
+        self.box_end_token = box_end_token
+        self.point_token = point_token
+        self.point_end_token = point_end_token
         # OCR
         self.ocr_enabled = ocr_enabled
         return output
 OculusConfig.register_for_auto_class()