inference4j
/

phi-3.5-vision-instruct

Image-Text-to-Text

Model card Files Files and versions

phi-3.5-vision-instruct / README.md

vccarvalho11's picture

Upload phi-3.5-vision ONNX model

7823d3b verified 4 days ago

|

history blame contribute delete

1.66 kB

	---
	library_name: onnx
	tags:
	- image-text-to-text
	- phi-3
	- vision
	- multimodal
	- onnx
	- int4
	- cpu
	- onnx
	- inference4j
	license: mit
	pipeline_tag: image-text-to-text
	---

	# Phi-3.5-vision-instruct — ONNX (INT4)

	INT4-quantized ONNX export of [Phi-3.5-vision-instruct](https://huggingface.co/microsoft/Phi-3.5-vision-instruct), a 4.2B-parameter multimodal vision-language model from Microsoft. Accepts images and text prompts, generates text output. Optimized for CPU inference with int4 RTN block-32 quantization.

	Mirrored for use with [inference4j](https://github.com/inference4j/inference4j), an inference-only AI library for Java.

	## Original Source

	- Repository: [Microsoft](https://huggingface.co/microsoft/Phi-3.5-vision-instruct-onnx)
	- License: mit

	## Usage with inference4j

	```java
	try (VisionLanguageModel vision = VisionLanguageModel.builder()
	.model(ModelSources.phi3Vision())
	.build()) {
	GenerationResult result = vision.describe(Path.of("photo.jpg"));
	System.out.println(result.text());
	}
	```

	## Model Details

	\| Property \| Value \|
	\|----------\|-------\|
	\| Architecture \| Phi-3.5 Vision (4.2B parameters — CLIP ViT encoder + MLP projector + Phi-3 decoder) \|
	\| Task \| Image description, visual Q&A, multimodal chat \|
	\| Context length \| 128K tokens \|
	\| Quantization \| INT4 RTN block-32 acc-level-4 \|
	\| ONNX files \| 3 models (vision encoder, embedding projector, text decoder) \|
	\| Original framework \| PyTorch (transformers) \|

	## License

	This model is licensed under the [MIT License](https://opensource.org/licenses/MIT). Original model by [Microsoft](https://huggingface.co/microsoft).