Buckets:

hf-doc-build
/

doc-dev

hf-doc-build/doc-dev / diffusers /pr_12249 /en /_app /immutable /nodes /144.6c6f54b9.js

rtrm's picture

about 2 months ago

32.6 kB

	import{s as et,o as tt,n as nt}from"../chunks/scheduler.53228c21.js";import{S as at,i as it,e as s,s as i,c as d,h as lt,a as o,d as n,b as l,f as ae,g as c,j as y,k as ie,l as m,m as a,n as g,t as u,o as h,p as M}from"../chunks/index.100fac89.js";import{D as Be}from"../chunks/Docstring.f8721f67.js";import{C as Ne}from"../chunks/CodeBlock.d30a6509.js";import{E as st}from"../chunks/ExampleCodeBlock.24511344.js";import{H as D,E as ot}from"../chunks/MermaidChart.svelte_svelte_type_style_lang.d8195636.js";function rt(se){let p,v="Examples:",T,w,J;return w=new Ne({props:{code:"aW1wb3J0JTIwdG9yY2glMEFmcm9tJTIwZGlmZnVzZXJzJTIwaW1wb3J0JTIwR2xtSW1hZ2VQaXBlbGluZSUwQSUwQXBpcGUlMjAlM0QlMjBHbG1JbWFnZVBpcGVsaW5lLmZyb21fcHJldHJhaW5lZCglMjJ6YWktb3JnJTJGR0xNLUltYWdlJTIyJTJDJTIwdG9yY2hfZHR5cGUlM0R0b3JjaC5iZmxvYXQxNiklMEFwaXBlLnRvKCUyMmN1ZGElMjIpJTBBJTBBcHJvbXB0JTIwJTNEJTIwJTIyQSUyMHBob3RvJTIwb2YlMjBhbiUyMGFzdHJvbmF1dCUyMHJpZGluZyUyMGElMjBob3JzZSUyMG9uJTIwbWFycyUyMiUwQWltYWdlJTIwJTNEJTIwcGlwZShwcm9tcHQpLmltYWdlcyU1QjAlNUQlMEFpbWFnZS5zYXZlKCUyMm91dHB1dC5wbmclMjIp",highlighted:`<span class="hljs-meta">>>> </span><span class="hljs-keyword">import</span> torch
	<span class="hljs-meta">>>> </span><span class="hljs-keyword">from</span> diffusers <span class="hljs-keyword">import</span> GlmImagePipeline

	<span class="hljs-meta">>>> </span>pipe = GlmImagePipeline.from_pretrained(<span class="hljs-string">"zai-org/GLM-Image"</span>, torch_dtype=torch.bfloat16)
	<span class="hljs-meta">>>> </span>pipe.to(<span class="hljs-string">"cuda"</span>)

	<span class="hljs-meta">>>> </span>prompt = <span class="hljs-string">"A photo of an astronaut riding a horse on mars"</span>
	<span class="hljs-meta">>>> </span>image = pipe(prompt).images[<span class="hljs-number">0</span>]
	<span class="hljs-meta">>>> </span>image.save(<span class="hljs-string">"output.png"</span>)`,wrap:!1}}),{c(){p=s("p"),p.textContent=v,T=i(),d(w.$$.fragment)},l(r){p=o(r,"P",{"data-svelte-h":!0}),y(p)!=="svelte-kvfsh7"&&(p.textContent=v),T=l(r),c(w.$$.fragment,r)},m(r,G){a(r,p,G),a(r,T,G),g(w,r,G),J=!0},p:nt,i(r){J\|\|(u(w.$$.fragment,r),J=!0)},o(r){h(w.$$.fragment,r),J=!1},d(r){r&&(n(p),n(T)),M(w,r)}}}function pt(se){let p,v,T,w,J,r,G,oe,x,Ye="GLM-Image is an image generation model adopts a hybrid autoregressive + diffusion decoder architecture, effectively pushing the upper bound of visual fidelity and fine-grained details. In general image generation quality, it aligns with industry-standard LDM-based approaches, while demonstrating significant advantages in knowledge-intensive image generation scenarios.",re,B,Xe="Model architecture: a hybrid autoregressive + diffusion decoder design、",pe,Z,He='<li>Autoregressive generator: a 9B-parameter model initialized from <a href="https://huggingface.co/zai-org/GLM-4-9B-0414" rel="nofollow">GLM-4-9B-0414</a>, with an expanded vocabulary to incorporate visual tokens. The model first generates a compact encoding of approximately 256 tokens, then expands to 1K–4K tokens, corresponding to 1K–2K high-resolution image outputs. You can check AR model in class <code>GlmImageForConditionalGeneration</code> of <code>transformers</code> library.</li> <li>Diffusion Decoder: a 7B-parameter decoder based on a single-stream DiT architecture for latent-space image decoding. It is equipped with a Glyph Encoder text module, significantly improving accurate text rendering within images.</li>',me,W,Pe="Post-training with decoupled reinforcement learning: the model introduces a fine-grained, modular feedback strategy using the GRPO algorithm, substantially enhancing both semantic understanding and visual detail quality.",de,C,Fe="<li>Autoregressive module: provides low-frequency feedback signals focused on aesthetics and semantic alignment, improving instruction following and artistic expressiveness.</li> <li>Decoder module: delivers high-frequency feedback targeting detail fidelity and text accuracy, resulting in highly realistic textures, lighting, and color reproduction, as well as more precise text rendering.</li>",ce,$,Ee="GLM-Image supports both text-to-image and image-to-image generation within a single model",ge,k,Se="<li>Text-to-image: generates high-detail images from textual descriptions, with particularly strong performance in information-dense scenarios.</li> <li>Image-to-image: supports a wide range of tasks, including image editing, style transfer, multi-subject consistency, and identity-preserving generation for people and objects.</li>",ue,z,Le='This pipeline was contributed by <a href="https://github.com/zRzRzRzRzRzRzR" rel="nofollow">zRzRzRzRzRzRzR</a>. The codebase can be found <a href="https://huggingface.co/zai-org/GLM-Image" rel="nofollow">here</a>.',he,V,Me,R,fe,N,ye,Y,be,X,we,H,Qe="<li>Since the AR model used in GLM-Image is configured with <code>do_sample=True</code> and a temperature of <code>0.95</code> by default, the generated images can vary significantly across runs. We do not recommend setting do_sample=False, as this may lead to incorrect or degenerate outputs from the AR model.</li>",Je,P,Ge,f,F,Ze,q,Ae="Pipeline for text-to-image generation using GLM-Image.",We,O,De=`This pipeline integrates both the AR (autoregressive) model for token generation and the DiT (diffusion
	transformer) model for image decoding.`,Ce,I,E,$e,K,qe="Function invoked when calling the pipeline for generation.",ke,U,ze,j,S,Ve,ee,Oe="Encodes the prompt into text encoder hidden states.",Te,L,Ie,_,Q,Re,te,Ke="Output class for CogView3 pipelines.",_e,A,Ue,le,je;return J=new D({props:{title:"GLM-Image",local:"glm-image",headingTag:"h1"}}),G=new D({props:{title:"Overview",local:"overview",headingTag:"h2"}}),V=new D({props:{title:"Usage examples",local:"usage-examples",headingTag:"h2"}}),R=new D({props:{title:"Text to Image Generation",local:"text-to-image-generation",headingTag:"h3"}}),N=new Ne({props:{code:"aW1wb3J0JTIwdG9yY2glMEFmcm9tJTIwZGlmZnVzZXJzLnBpcGVsaW5lcy5nbG1faW1hZ2UlMjBpbXBvcnQlMjBHbG1JbWFnZVBpcGVsaW5lJTBBJTBBcGlwZSUyMCUzRCUyMEdsbUltYWdlUGlwZWxpbmUuZnJvbV9wcmV0cmFpbmVkKCUyMnphaS1vcmclMkZHTE0tSW1hZ2UlMjIlMkN0b3JjaF9kdHlwZSUzRHRvcmNoLmJmbG9hdDE2JTJDZGV2aWNlX21hcCUzRCUyMmN1ZGElMjIpJTBBcHJvbXB0JTIwJTNEJTIwJTIyQSUyMGJlYXV0aWZ1bGx5JTIwZGVzaWduZWQlMjBtb2Rlcm4lMjBmb29kJTIwbWFnYXppbmUlMjBzdHlsZSUyMGRlc3NlcnQlMjByZWNpcGUlMjBpbGx1c3RyYXRpb24lMkMlMjB0aGVtZWQlMjBhcm91bmQlMjBhJTIwcmFzcGJlcnJ5JTIwbW91c3NlJTIwY2FrZS4lMjBUaGUlMjBvdmVyYWxsJTIwbGF5b3V0JTIwaXMlMjBjbGVhbiUyMGFuZCUyMGJyaWdodCUyQyUyMGRpdmlkZWQlMjBpbnRvJTIwZm91ciUyMG1haW4lMjBhcmVhcyUzQSUyMHRoZSUyMHRvcCUyMGxlZnQlMjBmZWF0dXJlcyUyMGElMjBib2xkJTIwYmxhY2slMjB0aXRsZSUyMCdSYXNwYmVycnklMjBNb3Vzc2UlMjBDYWtlJTIwUmVjaXBlJTIwR3VpZGUnJTJDJTIwd2l0aCUyMGElMjBzb2Z0LWxpdCUyMGNsb3NlLXVwJTIwcGhvdG8lMjBvZiUyMHRoZSUyMGZpbmlzaGVkJTIwY2FrZSUyMG9uJTIwdGhlJTIwcmlnaHQlMkMlMjBzaG93Y2FzaW5nJTIwYSUyMGxpZ2h0JTIwcGluayUyMGNha2UlMjBhZG9ybmVkJTIwd2l0aCUyMGZyZXNoJTIwcmFzcGJlcnJpZXMlMjBhbmQlMjBtaW50JTIwbGVhdmVzJTNCJTIwdGhlJTIwYm90dG9tJTIwbGVmdCUyMGNvbnRhaW5zJTIwYW4lMjBpbmdyZWRpZW50JTIwbGlzdCUyMHNlY3Rpb24lMkMlMjB0aXRsZWQlMjAnSW5ncmVkaWVudHMnJTIwaW4lMjBhJTIwc2ltcGxlJTIwZm9udCUyQyUyMGxpc3RpbmclMjAnRmxvdXIlMjAxNTBnJyUyQyUyMCdFZ2dzJTIwMyclMkMlMjAnU3VnYXIlMjAxMjBnJyUyQyUyMCdSYXNwYmVycnklMjBwdXJlZSUyMDIwMGcnJTJDJTIwJ0dlbGF0aW4lMjBzaGVldHMlMjAxMGcnJTJDJTIwJ1doaXBwaW5nJTIwY3JlYW0lMjAzMDBtbCclMkMlMjBhbmQlMjAnRnJlc2glMjByYXNwYmVycmllcyclMkMlMjBlYWNoJTIwYWNjb21wYW5pZWQlMjBieSUyMG1pbmltYWxpc3QlMjBsaW5lJTIwaWNvbnMlMjAobGlrZSUyMGElMjBmbG91ciUyMGJhZyUyQyUyMGVnZ3MlMkMlMjBzdWdhciUyMGphciUyQyUyMGV0Yy4pJTNCJTIwdGhlJTIwYm90dG9tJTIwcmlnaHQlMjBkaXNwbGF5cyUyMGZvdXIlMjBlcXVhbGx5JTIwc2l6ZWQlMjBzdGVwJTIwYm94ZXMlMkMlMjBlYWNoJTIwY29udGFpbmluZyUyMGhpZ2gtZGVmaW5pdGlvbiUyMG1hY3JvJTIwcGhvdG9zJTIwYW5kJTIwY29ycmVzcG9uZGluZyUyMGluc3RydWN0aW9ucyUyQyUyMGFycmFuZ2VkJTIwZnJvbSUyMHRvcCUyMHRvJTIwYm90dG9tJTIwYXMlMjBmb2xsb3dzJTNBJTIwU3RlcCUyMDElMjBzaG93cyUyMGElMjB3aGlzayUyMHdoaXBwaW5nJTIwd2hpdGUlMjBmb2FtJTIwKHdpdGglMjB0aGUlMjBpbnN0cnVjdGlvbiUyMCdXaGlwJTIwZWdnJTIwd2hpdGVzJTIwdG8lMjBzdGlmZiUyMHBlYWtzJyklMkMlMjBTdGVwJTIwMiUyMHNob3dzJTIwYSUyMHJlZC1hbmQtd2hpdGUlMjBtaXh0dXJlJTIwYmVpbmclMjBmb2xkZWQlMjB3aXRoJTIwYSUyMHNwYXR1bGElMjAod2l0aCUyMHRoZSUyMGluc3RydWN0aW9uJTIwJ0dlbnRseSUyMGZvbGQlMjBpbiUyMHRoZSUyMHB1cmVlJTIwYW5kJTIwYmF0dGVyJyklMkMlMjBTdGVwJTIwMyUyMHNob3dzJTIwcGluayUyMGxpcXVpZCUyMGJlaW5nJTIwcG91cmVkJTIwaW50byUyMGElMjByb3VuZCUyMG1vbGQlMjAod2l0aCUyMHRoZSUyMGluc3RydWN0aW9uJTIwJ1BvdXIlMjBpbnRvJTIwbW9sZCUyMGFuZCUyMGNoaWxsJTIwZm9yJTIwNCUyMGhvdXJzJyklMkMlMjBTdGVwJTIwNCUyMHNob3dzJTIwdGhlJTIwZmluaXNoZWQlMjBjYWtlJTIwZGVjb3JhdGVkJTIwd2l0aCUyMHJhc3BiZXJyaWVzJTIwYW5kJTIwbWludCUyMGxlYXZlcyUyMCh3aXRoJTIwdGhlJTIwaW5zdHJ1Y3Rpb24lMjAnRGVjb3JhdGUlMjB3aXRoJTIwcmFzcGJlcnJpZXMlMjBhbmQlMjBtaW50JyklM0IlMjBhJTIwbGlnaHQlMjBicm93biUyMGluZm9ybWF0aW9uJTIwYmFyJTIwcnVucyUyMGFsb25nJTIwdGhlJTIwYm90dG9tJTIwZWRnZSUyQyUyMHdpdGglMjBpY29ucyUyMG9uJTIwdGhlJTIwbGVmdCUyMHJlcHJlc2VudGluZyUyMCdQcmVwYXJhdGlvbiUyMHRpbWUlM0ElMjAzMCUyMG1pbnV0ZXMnJTJDJTIwJ0Nvb2tpbmclMjB0aW1lJTNBJTIwMjAlMjBtaW51dGVzJyUyQyUyMGFuZCUyMCdTZXJ2aW5ncyUzQSUyMDgnLiUyMFRoZSUyMG92ZXJhbGwlMjBjb2xvciUyMHNjaGVtZSUyMGlzJTIwZG9taW5hdGVkJTIwYnklMjBjcmVhbXklMjB3aGl0ZSUyMGFuZCUyMGxpZ2h0JTIwcGluayUyQyUyMHdpdGglMjBhJTIwc3VidGxlJTIwcGFwZXIlMjB0ZXh0dXJlJTIwaW4lMjB0aGUlMjBiYWNrZ3JvdW5kJTJDJTIwZmVhdHVyaW5nJTIwY29tcGFjdCUyMGFuZCUyMG9yZGVybHklMjB0ZXh0JTIwYW5kJTIwaW1hZ2UlMjBsYXlvdXQlMjB3aXRoJTIwY2xlYXIlMjBpbmZvcm1hdGlvbiUyMGhpZXJhcmNoeS4lMjIlMEFpbWFnZSUyMCUzRCUyMHBpcGUoJTBBJTIwJTIwJTIwJTIwcHJvbXB0JTNEcHJvbXB0JTJDJTBBJTIwJTIwJTIwJTIwaGVpZ2h0JTNEMzIlMjAqJTIwMzIlMkMlMEElMjAlMjAlMjAlMjB3aWR0aCUzRDM2JTIwKiUyMDMyJTJDJTBBJTIwJTIwJTIwJTIwbnVtX2luZmVyZW5jZV9zdGVwcyUzRDMwJTJDJTBBJTIwJTIwJTIwJTIwZ3VpZGFuY2Vfc2NhbGUlM0QxLjUlMkMlMEElMjAlMjAlMjAlMjBnZW5lcmF0b3IlM0R0b3JjaC5HZW5lcmF0b3IoZGV2aWNlJTNEJTIyY3VkYSUyMikubWFudWFsX3NlZWQoNDIpJTJDJTBBKS5pbWFnZXMlNUIwJTVEJTBBJTBBaW1hZ2Uuc2F2ZSglMjJvdXRwdXRfdDJpLnBuZyUyMik=",highlighted:`<span class="hljs-keyword">import</span> torch
	<span class="hljs-keyword">from</span> diffusers.pipelines.glm_image <span class="hljs-keyword">import</span> GlmImagePipeline

	pipe = GlmImagePipeline.from_pretrained(<span class="hljs-string">"zai-org/GLM-Image"</span>,torch_dtype=torch.bfloat16,device_map=<span class="hljs-string">"cuda"</span>)
	prompt = <span class="hljs-string">"A beautifully designed modern food magazine style dessert recipe illustration, themed around a raspberry mousse cake. The overall layout is clean and bright, divided into four main areas: the top left features a bold black title 'Raspberry Mousse Cake Recipe Guide', with a soft-lit close-up photo of the finished cake on the right, showcasing a light pink cake adorned with fresh raspberries and mint leaves; the bottom left contains an ingredient list section, titled 'Ingredients' in a simple font, listing 'Flour 150g', 'Eggs 3', 'Sugar 120g', 'Raspberry puree 200g', 'Gelatin sheets 10g', 'Whipping cream 300ml', and 'Fresh raspberries', each accompanied by minimalist line icons (like a flour bag, eggs, sugar jar, etc.); the bottom right displays four equally sized step boxes, each containing high-definition macro photos and corresponding instructions, arranged from top to bottom as follows: Step 1 shows a whisk whipping white foam (with the instruction 'Whip egg whites to stiff peaks'), Step 2 shows a red-and-white mixture being folded with a spatula (with the instruction 'Gently fold in the puree and batter'), Step 3 shows pink liquid being poured into a round mold (with the instruction 'Pour into mold and chill for 4 hours'), Step 4 shows the finished cake decorated with raspberries and mint leaves (with the instruction 'Decorate with raspberries and mint'); a light brown information bar runs along the bottom edge, with icons on the left representing 'Preparation time: 30 minutes', 'Cooking time: 20 minutes', and 'Servings: 8'. The overall color scheme is dominated by creamy white and light pink, with a subtle paper texture in the background, featuring compact and orderly text and image layout with clear information hierarchy."</span>
	image = pipe(
	prompt=prompt,
	height=<span class="hljs-number">32</span> * <span class="hljs-number">32</span>,
	width=<span class="hljs-number">36</span> * <span class="hljs-number">32</span>,
	num_inference_steps=<span class="hljs-number">30</span>,
	guidance_scale=<span class="hljs-number">1.5</span>,
	generator=torch.Generator(device=<span class="hljs-string">"cuda"</span>).manual_seed(<span class="hljs-number">42</span>),
	).images[<span class="hljs-number">0</span>]

	image.save(<span class="hljs-string">"output_t2i.png"</span>)`,wrap:!1}}),Y=new D({props:{title:"Image to Image Generation",local:"image-to-image-generation",headingTag:"h3"}}),X=new Ne({props:{code:"aW1wb3J0JTIwdG9yY2glMEFmcm9tJTIwZGlmZnVzZXJzLnBpcGVsaW5lcy5nbG1faW1hZ2UlMjBpbXBvcnQlMjBHbG1JbWFnZVBpcGVsaW5lJTBBZnJvbSUyMFBJTCUyMGltcG9ydCUyMEltYWdlJTBBJTBBcGlwZSUyMCUzRCUyMEdsbUltYWdlUGlwZWxpbmUuZnJvbV9wcmV0cmFpbmVkKCUyMnphaS1vcmclMkZHTE0tSW1hZ2UlMjIlMkN0b3JjaF9kdHlwZSUzRHRvcmNoLmJmbG9hdDE2JTJDZGV2aWNlX21hcCUzRCUyMmN1ZGElMjIpJTBBaW1hZ2VfcGF0aCUyMCUzRCUyMCUyMmNvbmQuanBnJTIyJTIwJTBBcHJvbXB0JTIwJTNEJTIwJTIyUmVwbGFjZSUyMHRoZSUyMGJhY2tncm91bmQlMjBvZiUyMHRoZSUyMHNub3clMjBmb3Jlc3QlMjB3aXRoJTIwYW4lMjB1bmRlcmdyb3VuZCUyMHN0YXRpb24lMjBmZWF0dXJpbmclMjBhbiUyMGF1dG9tYXRpYyUyMGVzY2FsYXRvci4lMjIlMEFpbWFnZSUyMCUzRCUyMEltYWdlLm9wZW4oaW1hZ2VfcGF0aCkuY29udmVydCglMjJSR0IlMjIpJTBBaW1hZ2UlMjAlM0QlMjBwaXBlKCUwQSUyMCUyMCUyMCUyMHByb21wdCUzRHByb21wdCUyQyUwQSUyMCUyMCUyMCUyMGltYWdlJTNEJTVCaW1hZ2UlNUQlMkMlMjAlMjMlMjBjYW4lMjBpbnB1dCUyMG11bHRpcGxlJTIwaW1hZ2VzJTIwZm9yJTIwbXVsdGktaW1hZ2UtdG8taW1hZ2UlMjBnZW5lcmF0aW9uJTIwc3VjaCUyMGFzJTIwJTVCaW1hZ2UlMkMlMjBpbWFnZTElNUQlMEElMjAlMjAlMjAlMjBoZWlnaHQlM0QzMyUyMColMjAzMiUyQyUwQSUyMCUyMCUyMCUyMHdpZHRoJTNEMzIlMjAqJTIwMzIlMkMlMEElMjAlMjAlMjAlMjBudW1faW5mZXJlbmNlX3N0ZXBzJTNEMzAlMkMlMEElMjAlMjAlMjAlMjBndWlkYW5jZV9zY2FsZSUzRDEuNSUyQyUwQSUyMCUyMCUyMCUyMGdlbmVyYXRvciUzRHRvcmNoLkdlbmVyYXRvcihkZXZpY2UlM0QlMjJjdWRhJTIyKS5tYW51YWxfc2VlZCg0MiklMkMlMEEpLmltYWdlcyU1QjAlNUQlMEElMEFpbWFnZS5zYXZlKCUyMm91dHB1dF9pMmkucG5nJTIyKQ==",highlighted:`<span class="hljs-keyword">import</span> torch
	<span class="hljs-keyword">from</span> diffusers.pipelines.glm_image <span class="hljs-keyword">import</span> GlmImagePipeline
	<span class="hljs-keyword">from</span> PIL <span class="hljs-keyword">import</span> Image

	pipe = GlmImagePipeline.from_pretrained(<span class="hljs-string">"zai-org/GLM-Image"</span>,torch_dtype=torch.bfloat16,device_map=<span class="hljs-string">"cuda"</span>)
	image_path = <span class="hljs-string">"cond.jpg"</span>
	prompt = <span class="hljs-string">"Replace the background of the snow forest with an underground station featuring an automatic escalator."</span>
	image = Image.<span class="hljs-built_in">open</span>(image_path).convert(<span class="hljs-string">"RGB"</span>)
	image = pipe(
	prompt=prompt,
	image=[image], <span class="hljs-comment"># can input multiple images for multi-image-to-image generation such as [image, image1]</span>
	height=<span class="hljs-number">33</span> * <span class="hljs-number">32</span>,
	width=<span class="hljs-number">32</span> * <span class="hljs-number">32</span>,
	num_inference_steps=<span class="hljs-number">30</span>,
	guidance_scale=<span class="hljs-number">1.5</span>,
	generator=torch.Generator(device=<span class="hljs-string">"cuda"</span>).manual_seed(<span class="hljs-number">42</span>),
	).images[<span class="hljs-number">0</span>]

	image.save(<span class="hljs-string">"output_i2i.png"</span>)`,wrap:!1}}),P=new D({props:{title:"GlmImagePipeline",local:"diffusers.GlmImagePipeline",headingTag:"h2"}}),F=new Be({props:{name:"class diffusers.GlmImagePipeline",anchor:"diffusers.GlmImagePipeline",parameters:[{name:"tokenizer",val:": ByT5Tokenizer"},{name:"processor",val:": ProcessorMixin"},{name:"text_encoder",val:": T5EncoderModel"},{name:"vision_language_encoder",val:": PreTrainedModel"},{name:"vae",val:": AutoencoderKL"},{name:"transformer",val:": GlmImageTransformer2DModel"},{name:"scheduler",val:": FlowMatchEulerDiscreteScheduler"}],parametersDescription:[{anchor:"diffusers.GlmImagePipeline.tokenizer",description:`<strong>tokenizer</strong> (<code>PreTrainedTokenizer</code>) —
	Tokenizer for the text encoder.`,name:"tokenizer"},{anchor:"diffusers.GlmImagePipeline.processor",description:`<strong>processor</strong> (<code>AutoProcessor</code>) —
	Processor for the AR model to handle chat templates and tokenization.`,name:"processor"},{anchor:"diffusers.GlmImagePipeline.text_encoder",description:`<strong>text_encoder</strong> (<code>T5EncoderModel</code>) —
	Frozen text-encoder for glyph embeddings.`,name:"text_encoder"},{anchor:"diffusers.GlmImagePipeline.vision_language_encoder",description:`<strong>vision_language_encoder</strong> (<code>GlmImageForConditionalGeneration</code>) —
	The AR model that generates image tokens from text prompts.`,name:"vision_language_encoder"},{anchor:"diffusers.GlmImagePipeline.vae",description:`<strong>vae</strong> (<a href="/docs/diffusers/pr_12249/en/api/models/autoencoderkl#diffusers.AutoencoderKL">AutoencoderKL</a>) —
	Variational Auto-Encoder (VAE) Model to encode and decode images to and from latent representations.`,name:"vae"},{anchor:"diffusers.GlmImagePipeline.transformer",description:`<strong>transformer</strong> (<a href="/docs/diffusers/pr_12249/en/api/models/glm_image_transformer2d#diffusers.GlmImageTransformer2DModel">GlmImageTransformer2DModel</a>) —
	A text conditioned transformer to denoise the encoded image latents (DiT).`,name:"transformer"},{anchor:"diffusers.GlmImagePipeline.scheduler",description:`<strong>scheduler</strong> (<a href="/docs/diffusers/pr_12249/en/api/schedulers/overview#diffusers.SchedulerMixin">SchedulerMixin</a>) —
	A scheduler to be used in combination with <code>transformer</code> to denoise the encoded image latents.`,name:"scheduler"}],source:"https://github.com/huggingface/diffusers/blob/vr_12249/src/diffusers/pipelines/glm_image/pipeline_glm_image.py#L161"}}),E=new Be({props:{name:"__call__",anchor:"diffusers.GlmImagePipeline.__call__",parameters:[{name:"prompt",val:": typing.Union[str, typing.List[str], NoneType] = None"},{name:"image",val:": typing.Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, typing.List[PIL.Image.Image], typing.List[numpy.ndarray], typing.List[torch.Tensor], NoneType] = None"},{name:"height",val:": typing.Optional[int] = None"},{name:"width",val:": typing.Optional[int] = None"},{name:"num_inference_steps",val:": int = 50"},{name:"timesteps",val:": typing.Optional[typing.List[int]] = None"},{name:"sigmas",val:": typing.Optional[typing.List[float]] = None"},{name:"guidance_scale",val:": float = 1.5"},{name:"num_images_per_prompt",val:": int = 1"},{name:"generator",val:": typing.Union[torch._C.Generator, typing.List[torch._C.Generator], NoneType] = None"},{name:"latents",val:": typing.Optional[torch.FloatTensor] = None"},{name:"prompt_embeds",val:": typing.Optional[torch.Tensor] = None"},{name:"negative_prompt_embeds",val:": typing.Optional[torch.Tensor] = None"},{name:"prior_token_ids",val:": typing.Optional[torch.FloatTensor] = None"},{name:"prior_image_token_ids",val:": typing.Optional[torch.Tensor] = None"},{name:"crops_coords_top_left",val:": typing.Tuple[int, int] = (0, 0)"},{name:"output_type",val:": str = 'pil'"},{name:"return_dict",val:": bool = True"},{name:"attention_kwargs",val:": typing.Optional[typing.Dict[str, typing.Any]] = None"},{name:"callback_on_step_end",val:": typing.Union[typing.Callable[[int, int, typing.Dict], NoneType], diffusers.callbacks.PipelineCallback, diffusers.callbacks.MultiPipelineCallbacks, NoneType] = None"},{name:"callback_on_step_end_tensor_inputs",val:": typing.List[str] = ['latents']"},{name:"max_sequence_length",val:": int = 2048"}],parametersDescription:[{anchor:"diffusers.GlmImagePipeline.__call__.prompt",description:`<strong>prompt</strong> (<code>str</code> or <code>List[str]</code>, <em>optional</em>) —
	The prompt or prompts to guide the image generation. Must contain shape info in the format ’<sop>H
	W<eop>’ where H and W are token dimensions (d32). Example: “A beautiful sunset<sop>36 24<eop>”
	generates a 1152x768 image.</eop></sop></eop></sop>`,name:"prompt"},{anchor:"diffusers.GlmImagePipeline.__call__.image",description:"<strong>image</strong> — Optional condition images for image-to-image generation.",name:"image"},{anchor:"diffusers.GlmImagePipeline.__call__.height",description:`<strong>height</strong> (<code>int</code>, <em>optional</em>) —
	The height in pixels. If not provided, derived from prompt shape info.`,name:"height"},{anchor:"diffusers.GlmImagePipeline.__call__.width",description:`<strong>width</strong> (<code>int</code>, <em>optional</em>) —
	The width in pixels. If not provided, derived from prompt shape info.`,name:"width"},{anchor:"diffusers.GlmImagePipeline.__call__.num_inference_steps",description:`<strong>num_inference_steps</strong> (<code>int</code>, <em>optional</em>, defaults to <code>50</code>) —
	The number of denoising steps for DiT.`,name:"num_inference_steps"},{anchor:"diffusers.GlmImagePipeline.__call__.guidance_scale",description:`<strong>guidance_scale</strong> (<code>float</code>, <em>optional</em>, defaults to <code>1.5</code>) —
	Guidance scale for classifier-free guidance.`,name:"guidance_scale"},{anchor:"diffusers.GlmImagePipeline.__call__.num_images_per_prompt",description:`<strong>num_images_per_prompt</strong> (<code>int</code>, <em>optional</em>, defaults to <code>1</code>) —
	The number of images to generate per prompt.`,name:"num_images_per_prompt"},{anchor:"diffusers.GlmImagePipeline.__call__.generator",description:`<strong>generator</strong> (<code>torch.Generator</code>, <em>optional</em>) —
	Random generator for reproducibility.`,name:"generator"},{anchor:"diffusers.GlmImagePipeline.__call__.output_type",description:`<strong>output_type</strong> (<code>str</code>, <em>optional</em>, defaults to <code>"pil"</code>) —
	Output format: “pil”, “np”, or “latent”.`,name:"output_type"}],source:"https://github.com/huggingface/diffusers/blob/vr_12249/src/diffusers/pipelines/glm_image/pipeline_glm_image.py#L526",returnDescription:`<script context="module">export const metadata = 'undefined';<\/script>


	<p>Generated images.</p>
	`,returnType:`<script context="module">export const metadata = 'undefined';<\/script>


	<p><code>GlmImagePipelineOutput</code> or <code>tuple</code></p>
	`}}),U=new st({props:{anchor:"diffusers.GlmImagePipeline.__call__.example",$$slots:{default:[rt]},$$scope:{ctx:se}}}),S=new Be({props:{name:"encode_prompt",anchor:"diffusers.GlmImagePipeline.encode_prompt",parameters:[{name:"prompt",val:": typing.Union[str, typing.List[str]]"},{name:"do_classifier_free_guidance",val:": bool = True"},{name:"num_images_per_prompt",val:": int = 1"},{name:"prompt_embeds",val:": typing.Optional[torch.Tensor] = None"},{name:"negative_prompt_embeds",val:": typing.Optional[torch.Tensor] = None"},{name:"device",val:": typing.Optional[torch.device] = None"},{name:"dtype",val:": typing.Optional[torch.dtype] = None"},{name:"max_sequence_length",val:": int = 2048"}],parametersDescription:[{anchor:"diffusers.GlmImagePipeline.encode_prompt.prompt",description:`<strong>prompt</strong> (<code>str</code> or <code>List[str]</code>, <em>optional</em>) —
	prompt to be encoded`,name:"prompt"},{anchor:"diffusers.GlmImagePipeline.encode_prompt.do_classifier_free_guidance",description:`<strong>do_classifier_free_guidance</strong> (<code>bool</code>, <em>optional</em>, defaults to <code>True</code>) —
	Whether to use classifier free guidance or not.`,name:"do_classifier_free_guidance"},{anchor:"diffusers.GlmImagePipeline.encode_prompt.num_images_per_prompt",description:`<strong>num_images_per_prompt</strong> (<code>int</code>, <em>optional</em>, defaults to 1) —
	Number of images that should be generated per prompt. torch device to place the resulting embeddings on`,name:"num_images_per_prompt"},{anchor:"diffusers.GlmImagePipeline.encode_prompt.prompt_embeds",description:`<strong>prompt_embeds</strong> (<code>torch.Tensor</code>, <em>optional</em>) —
	Pre-generated text embeddings. Can be used to easily tweak text inputs, <em>e.g.</em> prompt weighting. If not
	provided, text embeddings will be generated from <code>prompt</code> input argument.`,name:"prompt_embeds"},{anchor:"diffusers.GlmImagePipeline.encode_prompt.device",description:`<strong>device</strong> — (<code>torch.device</code>, <em>optional</em>):
	torch device`,name:"device"},{anchor:"diffusers.GlmImagePipeline.encode_prompt.dtype",description:`<strong>dtype</strong> — (<code>torch.dtype</code>, <em>optional</em>):
	torch dtype`,name:"dtype"},{anchor:"diffusers.GlmImagePipeline.encode_prompt.max_sequence_length",description:`<strong>max_sequence_length</strong> (<code>int</code>, defaults to <code>2048</code>) —
	Maximum sequence length in encoded prompt. Can be set to other values but may lead to poorer results.`,name:"max_sequence_length"}],source:"https://github.com/huggingface/diffusers/blob/vr_12249/src/diffusers/pipelines/glm_image/pipeline_glm_image.py#L360"}}),L=new D({props:{title:"GlmImagePipelineOutput",local:"diffusers.pipelines.glm_image.pipeline_output.GlmImagePipelineOutput",headingTag:"h2"}}),Q=new Be({props:{name:"class diffusers.pipelines.glm_image.pipeline_output.GlmImagePipelineOutput",anchor:"diffusers.pipelines.glm_image.pipeline_output.GlmImagePipelineOutput",parameters:[{name:"images",val:": typing.Union[typing.List[PIL.Image.Image], numpy.ndarray]"}],parametersDescription:[{anchor:"diffusers.pipelines.glm_image.pipeline_output.GlmImagePipelineOutput.images",description:`<strong>images</strong> (<code>List[PIL.Image.Image]</code> or <code>np.ndarray</code>) —
	List of denoised PIL images of length <code>batch_size</code> or numpy array of shape <code>(batch_size, height, width, num_channels)</code>. PIL images or numpy array present the denoised images of the diffusion pipeline.`,name:"images"}],source:"https://github.com/huggingface/diffusers/blob/vr_12249/src/diffusers/pipelines/glm_image/pipeline_output.py#L11"}}),A=new ot({props:{source:"https://github.com/huggingface/diffusers/blob/main/docs/source/en/api/pipelines/glm_image.md"}}),{c(){p=s("meta"),v=i(),T=s("p"),w=i(),d(J.$$.fragment),r=i(),d(G.$$.fragment),oe=i(),x=s("p"),x.textContent=Ye,re=i(),B=s("p"),B.textContent=Xe,pe=i(),Z=s("ul"),Z.innerHTML=He,me=i(),W=s("p"),W.textContent=Pe,de=i(),C=s("ul"),C.innerHTML=Fe,ce=i(),$=s("p"),$.textContent=Ee,ge=i(),k=s("ul"),k.innerHTML=Se,ue=i(),z=s("p"),z.innerHTML=Le,he=i(),d(V.$$.fragment),Me=i(),d(R.$$.fragment),fe=i(),d(N.$$.fragment),ye=i(),d(Y.$$.fragment),be=i(),d(X.$$.fragment),we=i(),H=s("ul"),H.innerHTML=Qe,Je=i(),d(P.$$.fragment),Ge=i(),f=s("div"),d(F.$$.fragment),Ze=i(),q=s("p"),q.textContent=Ae,We=i(),O=s("p"),O.textContent=De,Ce=i(),I=s("div"),d(E.$$.fragment),$e=i(),K=s("p"),K.textContent=qe,ke=i(),d(U.$$.fragment),ze=i(),j=s("div"),d(S.$$.fragment),Ve=i(),ee=s("p"),ee.textContent=Oe,Te=i(),d(L.$$.fragment),Ie=i(),_=s("div"),d(Q.$$.fragment),Re=i(),te=s("p"),te.textContent=Ke,_e=i(),d(A.$$.fragment),Ue=i(),le=s("p"),this.h()},l(e){const t=lt("svelte-u9bgzb",document.head);p=o(t,"META",{name:!0,content:!0}),t.forEach(n),v=l(e),T=o(e,"P",{}),ae(T).forEach(n),w=l(e),c(J.$$.fragment,e),r=l(e),c(G.$$.fragment,e),oe=l(e),x=o(e,"P",{"data-svelte-h":!0}),y(x)!=="svelte-15flqe3"&&(x.textContent=Ye),re=l(e),B=o(e,"P",{"data-svelte-h":!0}),y(B)!=="svelte-1q1zu6y"&&(B.textContent=Xe),pe=l(e),Z=o(e,"UL",{"data-svelte-h":!0}),y(Z)!=="svelte-133gzeb"&&(Z.innerHTML=He),me=l(e),W=o(e,"P",{"data-svelte-h":!0}),y(W)!=="svelte-1it5s4x"&&(W.textContent=Pe),de=l(e),C=o(e,"UL",{"data-svelte-h":!0}),y(C)!=="svelte-jzgaek"&&(C.innerHTML=Fe),ce=l(e),$=o(e,"P",{"data-svelte-h":!0}),y($)!=="svelte-munah3"&&($.textContent=Ee),ge=l(e),k=o(e,"UL",{"data-svelte-h":!0}),y(k)!=="svelte-176w1gr"&&(k.innerHTML=Se),ue=l(e),z=o(e,"P",{"data-svelte-h":!0}),y(z)!=="svelte-1j80z8f"&&(z.innerHTML=Le),he=l(e),c(V.$$.fragment,e),Me=l(e),c(R.$$.fragment,e),fe=l(e),c(N.$$.fragment,e),ye=l(e),c(Y.$$.fragment,e),be=l(e),c(X.$$.fragment,e),we=l(e),H=o(e,"UL",{"data-svelte-h":!0}),y(H)!=="svelte-1o00uvs"&&(H.innerHTML=Qe),Je=l(e),c(P.$$.fragment,e),Ge=l(e),f=o(e,"DIV",{class:!0});var b=ae(f);c(F.$$.fragment,b),Ze=l(b),q=o(b,"P",{"data-svelte-h":!0}),y(q)!=="svelte-1xk2r6w"&&(q.textContent=Ae),We=l(b),O=o(b,"P",{"data-svelte-h":!0}),y(O)!=="svelte-1dlxp1f"&&(O.textContent=De),Ce=l(b),I=o(b,"DIV",{class:!0});var ne=ae(I);c(E.$$.fragment,ne),$e=l(ne),K=o(ne,"P",{"data-svelte-h":!0}),y(K)!=="svelte-v78lg8"&&(K.textContent=qe),ke=l(ne),c(U.$$.fragment,ne),ne.forEach(n),ze=l(b),j=o(b,"DIV",{class:!0});var ve=ae(j);c(S.$$.fragment,ve),Ve=l(ve),ee=o(ve,"P",{"data-svelte-h":!0}),y(ee)!=="svelte-16q0ax1"&&(ee.textContent=Oe),ve.forEach(n),b.forEach(n),Te=l(e),c(L.$$.fragment,e),Ie=l(e),_=o(e,"DIV",{class:!0});var xe=ae(_);c(Q.$$.fragment,xe),Re=l(xe),te=o(xe,"P",{"data-svelte-h":!0}),y(te)!=="svelte-zlr6ro"&&(te.textContent=Ke),xe.forEach(n),_e=l(e),c(A.$$.fragment,e),Ue=l(e),le=o(e,"P",{}),ae(le).forEach(n),this.h()},h(){ie(p,"name","hf:doc:metadata"),ie(p,"content",mt),ie(I,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),ie(j,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),ie(f,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8"),ie(_,"class","docstring border-l-2 border-t-2 pl-4 pt-3.5 border-gray-100 rounded-tl-xl mb-6 mt-8")},m(e,t){m(document.head,p),a(e,v,t),a(e,T,t),a(e,w,t),g(J,e,t),a(e,r,t),g(G,e,t),a(e,oe,t),a(e,x,t),a(e,re,t),a(e,B,t),a(e,pe,t),a(e,Z,t),a(e,me,t),a(e,W,t),a(e,de,t),a(e,C,t),a(e,ce,t),a(e,$,t),a(e,ge,t),a(e,k,t),a(e,ue,t),a(e,z,t),a(e,he,t),g(V,e,t),a(e,Me,t),g(R,e,t),a(e,fe,t),g(N,e,t),a(e,ye,t),g(Y,e,t),a(e,be,t),g(X,e,t),a(e,we,t),a(e,H,t),a(e,Je,t),g(P,e,t),a(e,Ge,t),a(e,f,t),g(F,f,null),m(f,Ze),m(f,q),m(f,We),m(f,O),m(f,Ce),m(f,I),g(E,I,null),m(I,$e),m(I,K),m(I,ke),g(U,I,null),m(f,ze),m(f,j),g(S,j,null),m(j,Ve),m(j,ee),a(e,Te,t),g(L,e,t),a(e,Ie,t),a(e,_,t),g(Q,_,null),m(_,Re),m(_,te),a(e,_e,t),g(A,e,t),a(e,Ue,t),a(e,le,t),je=!0},p(e,[t]){const b={};t&2&&(b.$$scope={dirty:t,ctx:e}),U.$set(b)},i(e){je\|\|(u(J.$$.fragment,e),u(G.$$.fragment,e),u(V.$$.fragment,e),u(R.$$.fragment,e),u(N.$$.fragment,e),u(Y.$$.fragment,e),u(X.$$.fragment,e),u(P.$$.fragment,e),u(F.$$.fragment,e),u(E.$$.fragment,e),u(U.$$.fragment,e),u(S.$$.fragment,e),u(L.$$.fragment,e),u(Q.$$.fragment,e),u(A.$$.fragment,e),je=!0)},o(e){h(J.$$.fragment,e),h(G.$$.fragment,e),h(V.$$.fragment,e),h(R.$$.fragment,e),h(N.$$.fragment,e),h(Y.$$.fragment,e),h(X.$$.fragment,e),h(P.$$.fragment,e),h(F.$$.fragment,e),h(E.$$.fragment,e),h(U.$$.fragment,e),h(S.$$.fragment,e),h(L.$$.fragment,e),h(Q.$$.fragment,e),h(A.$$.fragment,e),je=!1},d(e){e&&(n(v),n(T),n(w),n(r),n(oe),n(x),n(re),n(B),n(pe),n(Z),n(me),n(W),n(de),n(C),n(ce),n($),n(ge),n(k),n(ue),n(z),n(he),n(Me),n(fe),n(ye),n(be),n(we),n(H),n(Je),n(Ge),n(f),n(Te),n(Ie),n(_),n(_e),n(Ue),n(le)),n(p),M(J,e),M(G,e),M(V,e),M(R,e),M(N,e),M(Y,e),M(X,e),M(P,e),M(F),M(E),M(U),M(S),M(L,e),M(Q),M(A,e)}}}const mt='{"title":"GLM-Image","local":"glm-image","sections":[{"title":"Overview","local":"overview","sections":[],"depth":2},{"title":"Usage examples","local":"usage-examples","sections":[{"title":"Text to Image Generation","local":"text-to-image-generation","sections":[],"depth":3},{"title":"Image to Image Generation","local":"image-to-image-generation","sections":[],"depth":3}],"depth":2},{"title":"GlmImagePipeline","local":"diffusers.GlmImagePipeline","sections":[],"depth":2},{"title":"GlmImagePipelineOutput","local":"diffusers.pipelines.glm_image.pipeline_output.GlmImagePipelineOutput","sections":[],"depth":2}],"depth":1}';function dt(se){return tt(()=>{new URLSearchParams(window.location.search).get("fw")}),[]}class yt extends at{constructor(p){super(),it(this,p,dt,pt,et,{})}}export{yt as component};

Xet Storage Details

Size:: 32.6 kB
Xet hash:: 032817f9753f7bf656de3599aaecd3266cbab31f31a7a28d07323485b9726762

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.