Dcas89
/

Aurea

@@ -1,3 +1,14 @@
 # Aurea: Adaptive Multimodal Fusion for Vision-Language Models
 Aurea is an open-source research project aimed at advancing vision-language model (VLM) pretraining by leveraging cutting-edge vision encoders—DINOv2 and SigLIP2. The core of Aurea is a novel adaptive **spatial-range attention mechanism** that intelligently fuses spatial and semantic information from encoder-derived visual features, enabling richer and more context-aware representations for various downstream tasks.

+---
+license: apache-2.0
+language:
+- en
+base_model:
+- microsoft/Phi-4-mini-instruct
+- facebook/dinov2-with-registers-giant
+- google/siglip2-so400m-patch14-224
+pipeline_tag: visual-question-answering
+---
 # Aurea: Adaptive Multimodal Fusion for Vision-Language Models
 Aurea is an open-source research project aimed at advancing vision-language model (VLM) pretraining by leveraging cutting-edge vision encoders—DINOv2 and SigLIP2. The core of Aurea is a novel adaptive **spatial-range attention mechanism** that intelligently fuses spatial and semantic information from encoder-derived visual features, enabling richer and more context-aware representations for various downstream tasks.