Update README.md

730ff77 verified about 1 year ago

9.64 kB

	---
	license: other
	license_name: stabilityai-ai-community
	license_link: LICENSE.md
	tags:
	- text-to-image
	- stable-diffusion
	- diffusers
	- art
	- music
	inference: true
	extra_gated_prompt: >-
	By clicking "Agree", you agree to the [License
	Agreement](https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/LICENSE.md)
	and acknowledge Stability AI's [Privacy
	Policy](https://stability.ai/privacy-policy).
	extra_gated_fields:
	Name: text
	Email: text
	Country: country
	Organization or Affiliation: text
	Receive email updates and promotions on Stability AI products, services, and research?:
	type: select
	options:
	- 'Yes'
	- 'No'
	What do you intend to use the model for?:
	type: select
	options:
	- Research
	- Personal use
	- Creative Professional
	- Startup
	- Enterprise
	I agree to the License Agreement and acknowledge Stability AI's Privacy Policy: checkbox
	language:
	- en
	- aa
	- ae
	pipeline_tag: image-to-image
	datasets:
	- microsoft/orca-agentinstruct-1M-v1
	new_version: genmo/mochi-1-preview
	library_name: adapter-transformers
	---

	#稳定扩散3.5大
	![3.5大演示图像](sd3.5_large_demo.png)

	##模型

	![MMDiT](mmdit.png)


	[稳定扩散3.5大](https://stability.ai/news/introducing-stable-diffusion-3-5)是一种多模式扩散转换器(MMDiT)文本到图像模型，其特点是在图像质量、排版、复杂的即时理解和资源效率方面提高了性能。

	请注意：此型号发布于[稳定性社区许可证](https://stability.ai/community-license-agreement).访问[稳定性AI](https://stability.ai/license)学习或[联系我们](https://stability.ai/enterprise)有关商业许可的详细信息。


	###型号说明

	- 编制单位：稳定性AI
	- 型号类型：MMDiT文本到图像生成模型
	- 型号说明：此模型根据文本提示生成图像。[多模扩散变压器](https://arxiv.org/abs/2403.03206)使用三个固定的、预训练的文本编码器，并使用QK标准化来提高训练稳定性。

	###许可证

	- 社区许可证：每年总收入低于100万美元的组织或个人可免费用于研究、非商业和商业用途。更多详情请参阅[社区许可协议](https://stability.ai/community-license-agreement)。更多信息请访问https://stability.ai/license.
	- 年收入超过100万美元的个人和组织：请[联系我们](https://stability.ai/enterprise)获得企业许可证。

	###模型源

	对于本地或自托管使用，我们建议[ComfyUI](https://github.com/comfyanonymous/ComfyUI)用于基于节点的UI推断，或[扩散器](https://github.com/huggingface/diffusers)或[GitHub](https://github.com/Stability-AI/sd3.5)供编程使用。

	- ComfyUI： [GitHub](https://github.com/comfyanonymous/ComfyUI),[工作流示例](https://comfyanonymous.github.io/ComfyUI_examples/sd3/)
	- 拥抱面空间： [空间](https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large)
	- 扩散器:[见下文](#using-with-diffusers).
	- GitHub:[GitHub](https://github.com/Stability-AI/sd3.5).

	- API端点：
	- [稳定性AI API](https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post)
	- [复制](https://replicate.com/stability-ai/stable-diffusion-3.5-large)
	- [Deepinfra](https://deepinfra.com/stabilityai/sd3.5)


	###实施详细信息

	- QK归一化：实施QK归一化技术，提高训练稳定性。

	- 文本编码器：
	-剪辑：[OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip),[夹子-ViT/L](https://github.com/openai/CLIP/tree/main)，上下文长度77个标记
	-T5：[T5-xxl](https://huggingface.co/google/t5-v1_1-xxl)，上下文长度77/256个在训练的不同阶段的标记

	- 培训数据和策略：

	这一模型是根据各种各样的数据训练的，包括合成数据和经过筛选的公开数据。

	有关原始MMDiT架构的更多技术细节，请参阅[研究论文](https://stability.ai/news/stable-diffusion-3-research-paper).


	###模型性能

	看见[博客](https://stability.ai/news/introducing-stable-diffusion-3-5)为我们研究的比较表现在即时坚持和审美质量。


	##文件结构

	单击此处访问[“文件和版本”选项卡](https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main)

	```│
	├--文本编码器/
	│├--README.md
	│├--clip_g.safetensors
	│├--clip_l.safetensors
	│├--t5xxxl_fp16.safetensors
	│└--t5xxxl_fp8_e4m3fn.safetensors
	│
	├--README.md
	├--许可证
	├--sd3_large.safetensors
	├--SD3.5L_example_workflow.json
	└--sd3_large_demo.png

	下面的文件结构用于扩散器集成
	├--调度程序/
	├--文本编码器/
	├--text_encoder_2/
	├--text_encoder_3/
	├--标记器/
	├--标记器_2/
	├--标记器_3/
	├--变压器/
	├--vae/
	└--model_index.json
	```

	##与散流器一起使用
	升级至最新版本的[🧨 扩散器库](https://github.com/huggingface/diffusers)
	```
	PIP安装-U扩散器
	```

	然后你就可以跑了
	```py
	进口火炬
	从扩散器导入StableDiffusion3Pipeline

	管道=稳定扩散3管道。from_pretrained(“稳定/稳定扩散-3.5-大”)，torch_dtype=torch。bfloat16)
	pipe=pipe.to(“cuda”)

	image=管道(
	“一只手持标语的水豚”，
	NUM_interference_steps=28，
	guidance_scale=3.5，
	).图像[0]
	image.save("capybara.png")
	```

	###使用扩散器对模型进行量化

	减少您的VRAM使用量，使型号适合 🤏 VRAM GPU

	```
	PIP安装位和字节
	```

	```py
	从扩散器导入BitsAndBytesConfig，SD3Transformer2DModel
	从扩散器导入StableDiffusion3Pipeline
	进口火炬

	model_id="稳定/稳定扩散-3.5-大"

	NF4_config=BitsAndBytesConfig(
	load_in_4bit=真，
	BNB_4bit_quant_type="NF4"，
	BNB_4bit_compute_dtype=torch.bfloat16
	)
	model_NF4=SD3Transformer2DModel.from_pretrained(
	model_id，
	子文件夹="transformer"，
	quantization_config=NF4_config，
	torch_dtype=torch.bfloat16
	)

	pipeline=StableDiffusion3Pipeline.from_pretrained(
	model_id，
	变压器=型号NF4，
	torch_dtype=torch.bfloat16
	)
	pipeline.enable_model_cpu_offload()

	prompt="这是一幅异想天开、创意十足的画面，描绘了一种由华夫饼干和河马混合而成的混合生物，在早餐主题景观中，沐浴在融化的黄油河中。它以河马特有的庞大体型为特色。然而，这种生物的身体不像通常的灰色皮肤，而是像刚从烤盘上拿下来的金棕色酥脆华夫饼。表皮的纹理是熟悉的格子图案华夫饼，每个方块都充满了糖浆的光泽。这是河马的自然栖息地，有早餐餐桌的布置，一条温暖融化的黄油流淌的河流，背景是从葱郁的薄烤饼般的树叶中探出的超大餐具或盘子，还有一棵树旁边的高耸的胡椒磨。在这个奇幻的世界里，当太阳升起时，它投下了温暖的黄油般的光芒。这只满足于黄油河的生物打了个哈欠。附近，一群鸟飞走了。

	image=管道(
	prompt=提示，
	NUM_interference_steps=28，
	制导标度=4.5，
	Max_sequence_length=512，
	).图像[0]
	image.save("whimsical.png")
	```

	###微调

	请参阅微调指南[在这里](https://stabilityai.notion.site/Stable-Diffusion-3-5-Large-Fine-tuning-Tutorial-11a61cdcd1968027a15bdbd7c40be8c6).


	##uses

	###预期用途

	预期用途包括：
	*艺术作品的产生和在设计和其他艺术过程中的使用。
	*在教育或创意工具中的应用。
	*研究生成模型，包括理解生成模型的局限性。

	该模型的所有用途必须符合我们的[可接受的使用政策](https://stability.ai/use-policy).

	###超出范围的使用

	该模型未被训练为真实或真实地表示人物或事件。因此，使用该模型生成这样的内容超出了该模型的能力范围。

	##安全

	作为我们设计安全和负责任的人工智能部署方法的一部分，我们采取了慎重的措施，以确保完整性在开发的早期阶段就开始。我们在整个模型开发过程中实施了安全措施。我们实施了旨在降低某些损害风险的安全缓解措施，但我们建议开发人员进行自己的测试，并根据其特定用例应用额外的缓解措施。
	有关我们的安全方法的更多信息，请访问我们的[安全页](https://stability.ai/safety).

	###完整性评估

	我们的完整性评估方法包括针对某些损害的结构化评估和红队测试。测试主要以英语进行，可能不包括所有可能的损害。

	###已识别的风险和缓解措施：

	*有害内容：我们在训练模型时使用了经过筛选的数据集，并实施了保护措施，试图在有用性和防止伤害之间取得适当的平衡。但是，这并不能保证所有可能的有害内容都已被删除。高级开发人员和部署人员应谨慎行事，并根据其特定的产品策略和应用程序用例实施内容安全防护栏。
	*误用：技术限制以及开发人员和最终用户培训有助于减少模型的恶意应用。所有用户都必须遵守我们的[可接受的使用政策](https://stability.ai/use-policy)，包括应用微调和即时工程机制时。有关违规使用我们产品的信息，请参考稳定性AI可接受使用政策。
	*隐私侵犯：鼓励开发人员和部署人员使用尊重数据隐私的技术遵守隐私法规。

	###联系

	请报告模型的任何问题或联系我们：

	*安全问题：safety@stability.ai
	*安全问题：security@stability.ai
	*隐私问题：privacy@stability.ai
	*许可证和总则：https://stability.ai/license
	*企业许可证：https://stability.ai/enterprise