Add metadata, project page link and improve description

90abac3 verified 9 months ago

1.1 kB

license: apache-2.0
datasets:
  - COCO
  - ReasonSeg
  - CountBench
language:
  - en
metrics:
  - accuracy
base_model:
  - Qwen2.5-VL
pipeline_tag: image-text-to-text
library_name: transformers

VisionReasoner-7B

Paper

Code: https://github.com/dvlab-research/VisionReasoner

Project page: https://github.com/dvlab-research/VisionReasoner

Description

This is a VisionReasoner-7B model. It introduces a decoupled architecture consisting of a reasoning model and a segmentation model. The reasoning model interprets user intentions, generates explicit reasoning chains, and produces positional prompts, which are subsequently used by the segmentation model to generate pixel-level masks.

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# load model
model = AutoModelForCausalLM.from_pretrained("Ricky06662/VisionReasoner-7B")
tokenizer = AutoTokenizer.from_pretrained("Ricky06662/VisionReasoner-7B")