armwaheed
/

stable-diffusion-3.5-medium-onnx

StableDiffusion3Pipeline

stable-diffusion

Model card Files Files and versions

armwaheed commited on Apr 28, 2025

Commit

e5bcc3c

·

verified ·

1 Parent(s): 68f94ad

Update README.md

Files changed (1) hide show

README.md +42 -3

README.md CHANGED Viewed

@@ -1,3 +1,42 @@
----
-license: apache-2.0
----

+---
+license: other
+license_name: stabilityai-ai-community
+license_link: LICENSE.md
+tags:
+- text-to-image
+- stable-diffusion
+- diffusers
+inference: true
+language:
+- en
+pipeline_tag: text-to-image
+---
+# Stable Diffusion 3.5 Medium ONNX
+This ONNX version of Stable Diffusion 3.5 Medium was made from the [PyTorch source model](https://huggingface.co/stabilityai/stable-diffusion-3.5-medium), using `optimum-cli`: [Converting Stable Diffusion 3.5 Medium From PyTorch to ONNX](https://github.com/armwaheed/stability-ai-toolkit/tree/armwaheed/sd35-inpainting-onnx/pytorch-to-onnx)
+![3.5 Medium Demo Image](https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/blob/main/sd3.5_medium_demo.jpg)
+## Usage
+Python Gradio: [Stable Diffusion 3.5 Inpainting in ONNX](https://github.com/armwaheed/stability-ai-toolkit/blob/armwaheed/sd35-inpainting-onnx/README.md)
+## Model
+![MMDiT-X](https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/blob/main/mmdit-x.png)
+[Stable Diffusion 3.5 Medium](https://stability.ai/news/introducing-stable-diffusion-3-5) is a Multimodal Diffusion Transformer with improvements (MMDiT-X) text-to-image model that features improved performance in image quality, typography, complex prompt understanding, and resource-efficiency.
+Please note: This model is released under the [Stability Community License](https://stability.ai/community-license-agreement). Visit [Stability AI](https://stability.ai/license) to learn or [contact us](https://stability.ai/enterprise) for commercial licensing details.
+### Model Description
+- **Developed by:** Stability AI
+- **Model type:** MMDiT-X text-to-image generative model
+- **Model Description:**  This model generates images based on text prompts. It is a Multimodal Diffusion Transformer
+(https://arxiv.org/abs/2403.03206) with improvements that use three fixed, pretrained text encoders, with QK-normalization to improve training stability, and dual attention blocks in the first 12 transformer layers.
+### License
+- **Community License:**  Free for research, non-commercial, and commercial use for organizations or individuals with less than $1M in total annual revenue. More details can be found in the [Community License Agreement](https://stability.ai/community-license-agreement). Read more at https://stability.ai/license.
+- **For individuals and organizations with annual revenue above $1M**: please [contact us](https://stability.ai/enterprise) to get an Enterprise License.