Buckets:
| # Diffusers | |
| ## Docs | |
| - [効果的で効率的な拡散モデル](https://huggingface.co/docs/diffusers/pr_11739/ja/stable_diffusion.md) | |
| - [インストール](https://huggingface.co/docs/diffusers/pr_11739/ja/installation.md) | |
| - [簡単な案内](https://huggingface.co/docs/diffusers/pr_11739/ja/quicktour.md) | |
| - [Diffusers](https://huggingface.co/docs/diffusers/pr_11739/ja/index.md) | |
| - [Overview](https://huggingface.co/docs/diffusers/pr_11739/ja/tutorials/tutorial_overview.md) | |
| - [AutoPipeline](https://huggingface.co/docs/diffusers/pr_11739/ja/tutorials/autopipeline.md) | |
| ### 効果的で効率的な拡散モデル | |
| https://huggingface.co/docs/diffusers/pr_11739/ja/stable_diffusion.md | |
| # 効果的で効率的な拡散モデル | |
| `DiffusionPipeline`を使って特定のスタイルで画像を生成したり、希望する画像を生成したりするのは難しいことです。多くの場合、`DiffusionPipeline`を何度か実行してからでないと満足のいく画像は得られません。しかし、何もないところから何かを生成するにはたくさんの計算が必要です。生成を何度も何度も実行する場合、特にたくさんの計算量が必要になります。 | |
| そのため、パイプラインから*計算*(速度)と*メモリ*(GPU RAM)の効率を最大限に引き出し、生成サイクル間の時間を短縮することで、より高速な反復処理を行えるようにすることが重要です。 | |
| このチュートリアルでは、`DiffusionPipeline`を用いて、より速く、より良い計算を行う方法を説明します。 | |
| まず、[`stable-diffusion-v1-5/stable-diffusion-v1-5`](https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5)モデルをロードします: | |
| ```python | |
| from diffusers import DiffusionPipeline | |
| model_id = "stable-diffusion-v1-5/stable-diffusion-v1-5" | |
| pipeline = DiffusionPipeline.from_pretrained(model_id, use_safetensors=True) | |
| ``` | |
| ここで使用するプロンプトの例は年老いた戦士の長の肖像画ですが、ご自由に変更してください: | |
| ```python | |
| prompt = "portrait photo of a old warrior chief" | |
| ``` | |
| ## Speed | |
| > [!TIP] | |
| > 💡 GPUを利用できない場合は、[Colab](https://colab.research.google.com/)のようなGPUプロバイダーから無料で利用できます! | |
| 画像生成を高速化する最も簡単な方法の1つは、PyTorchモジュールと同じようにGPU上にパイプラインを配置することです: | |
| ```python | |
| pipeline = pipeline.to("cuda") | |
| ``` | |
| 同じイメージを使って改良できるようにするには、[`Generator`](https://pytorch.org/docs/stable/generated/torch.Generator.html)を使い、[reproducibility](./using-diffusers/reusing_seeds)の種を設定します: | |
| ```python | |
| import torch | |
| generator = torch.Generator("cuda").manual_seed(0) | |
| ``` | |
| これで画像を生成できます: | |
| ```python | |
| image = pipeline(prompt, generator=generator).images[0] | |
| image | |
| ``` | |
| この処理にはT4 GPUで~30秒かかりました(割り当てられているGPUがT4より優れている場合はもっと速いかもしれません)。デフォルトでは、`DiffusionPipeline`は完全な`float32`精度で生成を50ステップ実行します。float16`のような低い精度に変更するか、推論ステップ数を減らすことで高速化することができます。 | |
| まずは `float16` でモデルをロードして画像を生成してみましょう: | |
| ```python | |
| import torch | |
| pipeline = DiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, use_safetensors=True) | |
| pipeline = pipeline.to("cuda") | |
| generator = torch.Generator("cuda").manual_seed(0) | |
| image = pipeline(prompt, generator=generator).images[0] | |
| image | |
| ``` | |
| 今回、画像生成にかかった時間はわずか11秒で、以前より3倍近く速くなりました! | |
| > [!TIP] | |
| > 💡 パイプラインは常に `float16` で実行することを強くお勧めします。 | |
| 生成ステップ数を減らすという方法もあります。より効率的なスケジューラを選択することで、出力品質を犠牲にすることなくステップ数を減らすことができます。`compatibles`メソッドを呼び出すことで、`DiffusionPipeline`の現在のモデルと互換性のあるスケジューラを見つけることができます: | |
| ```python | |
| pipeline.scheduler.compatibles | |
| [ | |
| diffusers.schedulers.scheduling_lms_discrete.LMSDiscreteScheduler, | |
| diffusers.schedulers.scheduling_unipc_multistep.UniPCMultistepScheduler, | |
| diffusers.schedulers.scheduling_k_dpm_2_discrete.KDPM2DiscreteScheduler, | |
| diffusers.schedulers.scheduling_deis_multistep.DEISMultistepScheduler, | |
| diffusers.schedulers.scheduling_euler_discrete.EulerDiscreteScheduler, | |
| diffusers.schedulers.scheduling_dpmsolver_multistep.DPMSolverMultistepScheduler, | |
| diffusers.schedulers.scheduling_ddpm.DDPMScheduler, | |
| diffusers.schedulers.scheduling_dpmsolver_singlestep.DPMSolverSinglestepScheduler, | |
| diffusers.schedulers.scheduling_k_dpm_2_ancestral_discrete.KDPM2AncestralDiscreteScheduler, | |
| diffusers.schedulers.scheduling_heun_discrete.HeunDiscreteScheduler, | |
| diffusers.schedulers.scheduling_pndm.PNDMScheduler, | |
| diffusers.schedulers.scheduling_euler_ancestral_discrete.EulerAncestralDiscreteScheduler, | |
| diffusers.schedulers.scheduling_ddim.DDIMScheduler, | |
| ] | |
| ``` | |
| Stable Diffusionモデルはデフォルトで`PNDMScheduler`を使用します。このスケジューラは通常~50の推論ステップを必要としますが、`DPMSolverMultistepScheduler`のような高性能なスケジューラでは~20または25の推論ステップで済みます。`ConfigMixin.from_config()`メソッドを使用すると、新しいスケジューラをロードすることができます: | |
| ```python | |
| from diffusers import DPMSolverMultistepScheduler | |
| pipeline.scheduler = DPMSolverMultistepScheduler.from_config(pipeline.scheduler.config) | |
| ``` | |
| ここで `num_inference_steps` を20に設定します: | |
| ```python | |
| generator = torch.Generator("cuda").manual_seed(0) | |
| image = pipeline(prompt, generator=generator, num_inference_steps=20).images[0] | |
| image | |
| ``` | |
| 推論時間をわずか4秒に短縮することに成功した!⚡️ | |
| ## メモリー | |
| パイプラインのパフォーマンスを向上させるもう1つの鍵は、消費メモリを少なくすることです。一度に生成できる画像の数を確認する最も簡単な方法は、`OutOfMemoryError`(OOM)が発生するまで、さまざまなバッチサイズを試してみることです。 | |
| 文章と `Generators` のリストから画像のバッチを生成する関数を作成します。各 `Generator` にシードを割り当てて、良い結果が得られた場合に再利用できるようにします。 | |
| ```python | |
| def get_inputs(batch_size=1): | |
| generator = [torch.Generator("cuda").manual_seed(i) for i in range(batch_size)] | |
| prompts = batch_size * [prompt] | |
| num_inference_steps = 20 | |
| return {"prompt": prompts, "generator": generator, "num_inference_steps": num_inference_steps} | |
| ``` | |
| `batch_size=4`で開始し、どれだけメモリを消費したかを確認します: | |
| ```python | |
| from diffusers.utils import make_image_grid | |
| images = pipeline(**get_inputs(batch_size=4)).images | |
| make_image_grid(images, 2, 2) | |
| ``` | |
| 大容量のRAMを搭載したGPUでない限り、上記のコードはおそらく`OOM`エラーを返したはずです!メモリの大半はクロスアテンションレイヤーが占めています。この処理をバッチで実行する代わりに、逐次実行することでメモリを大幅に節約できます。必要なのは、`enable_attention_slicing()`関数を使用することだけです: | |
| ```python | |
| pipeline.enable_attention_slicing() | |
| ``` | |
| 今度は`batch_size`を8にしてみてください! | |
| ```python | |
| images = pipeline(**get_inputs(batch_size=8)).images | |
| make_image_grid(images, rows=2, cols=4) | |
| ``` | |
| 以前は4枚の画像のバッチを生成することさえできませんでしたが、今では8枚の画像のバッチを1枚あたり~3.5秒で生成できます!これはおそらく、品質を犠牲にすることなくT4 GPUでできる最速の処理速度です。 | |
| ## 品質 | |
| 前の2つのセクションでは、`fp16` を使ってパイプラインの速度を最適化する方法、よりパフォーマン スなスケジューラーを使って生成ステップ数を減らす方法、アテンションスライスを有効 にしてメモリ消費量を減らす方法について学びました。今度は、生成される画像の品質を向上させる方法に焦点を当てます。 | |
| ### より良いチェックポイント | |
| 最も単純なステップは、より良いチェックポイントを使うことです。Stable Diffusionモデルは良い出発点であり、公式発表以来、いくつかの改良版もリリースされています。しかし、新しいバージョンを使ったからといって、自動的に良い結果が得られるわけではありません。最良の結果を得るためには、自分でさまざまなチェックポイントを試してみたり、ちょっとした研究([ネガティブプロンプト](https://minimaxir.com/2022/11/stable-diffusion-negative-prompt/)の使用など)をしたりする必要があります。 | |
| この分野が成長するにつれて、特定のスタイルを生み出すために微調整された、より質の高いチェックポイントが増えています。[Hub](https://huggingface.co/models?library=diffusers&sort=downloads)や[Diffusers Gallery](https://huggingface.co/spaces/huggingface-projects/diffusers-gallery)を探索して、興味のあるものを見つけてみてください! | |
| ### より良いパイプラインコンポーネント | |
| 現在のパイプラインコンポーネントを新しいバージョンに置き換えてみることもできます。Stability AIが提供する最新の[autodecoder](https://huggingface.co/stabilityai/stable-diffusion-2-1/tree/main/vae)をパイプラインにロードし、画像を生成してみましょう: | |
| ```python | |
| from diffusers import AutoencoderKL | |
| vae = AutoencoderKL.from_pretrained("stabilityai/sd-vae-ft-mse", torch_dtype=torch.float16).to("cuda") | |
| pipeline.vae = vae | |
| images = pipeline(**get_inputs(batch_size=8)).images | |
| make_image_grid(images, rows=2, cols=4) | |
| ``` | |
| ### より良いプロンプト・エンジニアリング | |
| 画像を生成するために使用する文章は、*プロンプトエンジニアリング*と呼ばれる分野を作られるほど、非常に重要です。プロンプト・エンジニアリングで考慮すべき点は以下の通りです: | |
| - 生成したい画像やその類似画像は、インターネット上にどのように保存されているか? | |
| - 私が望むスタイルにモデルを誘導するために、どのような追加詳細を与えるべきか? | |
| このことを念頭に置いて、プロンプトに色やより質の高いディテールを含めるように改良してみましょう: | |
| ```python | |
| prompt += ", tribal panther make up, blue on red, side profile, looking away, serious eyes" | |
| prompt += " 50mm portrait photography, hard rim lighting photography--beta --ar 2:3 --beta --upbeta" | |
| ``` | |
| 新しいプロンプトで画像のバッチを生成しましょう: | |
| ```python | |
| images = pipeline(**get_inputs(batch_size=8)).images | |
| make_image_grid(images, rows=2, cols=4) | |
| ``` | |
| かなりいいです!種が`1`の`Generator`に対応する2番目の画像に、被写体の年齢に関するテキストを追加して、もう少し手を加えてみましょう: | |
| ```python | |
| prompts = [ | |
| "portrait photo of the oldest warrior chief, tribal panther make up, blue on red, side profile, looking away, serious eyes 50mm portrait photography, hard rim lighting photography--beta --ar 2:3 --beta --upbeta", | |
| "portrait photo of a old warrior chief, tribal panther make up, blue on red, side profile, looking away, serious eyes 50mm portrait photography, hard rim lighting photography--beta --ar 2:3 --beta --upbeta", | |
| "portrait photo of a warrior chief, tribal panther make up, blue on red, side profile, looking away, serious eyes 50mm portrait photography, hard rim lighting photography--beta --ar 2:3 --beta --upbeta", | |
| "portrait photo of a young warrior chief, tribal panther make up, blue on red, side profile, looking away, serious eyes 50mm portrait photography, hard rim lighting photography--beta --ar 2:3 --beta --upbeta", | |
| ] | |
| generator = [torch.Generator("cuda").manual_seed(1) for _ in range(len(prompts))] | |
| images = pipeline(prompt=prompts, generator=generator, num_inference_steps=25).images | |
| make_image_grid(images, 2, 2) | |
| ``` | |
| ## 次のステップ | |
| このチュートリアルでは、`DiffusionPipeline`を最適化して計算効率とメモリ効率を向上させ、生成される出力の品質を向上させる方法を学びました。パイプラインをさらに高速化することに興味があれば、以下のリソースを参照してください: | |
| - [PyTorch 2.0](./optimization/torch2.0)と[`torch.compile`](https://pytorch.org/docs/stable/generated/torch.compile.html)がどのように生成速度を5-300%高速化できるかを学んでください。A100 GPUの場合、画像生成は最大50%速くなります! | |
| - PyTorch 2が使えない場合は、[xFormers](./optimization/xformers)をインストールすることをお勧めします。このライブラリのメモリ効率の良いアテンションメカニズムは PyTorch 1.13.1 と相性が良く、高速化とメモリ消費量の削減を同時に実現します。 | |
| - モデルのオフロードなど、その他の最適化テクニックは [this guide](./optimization/fp16) でカバーされています。 | |
| ### インストール | |
| https://huggingface.co/docs/diffusers/pr_11739/ja/installation.md | |
| # インストール | |
| お使いのディープラーニングライブラリに合わせてDiffusersをインストールできます。 | |
| 🤗 DiffusersはPython 3.8+、PyTorch 1.7.0+、Flaxでテストされています。使用するディープラーニングライブラリの以下のインストール手順に従ってください: | |
| - [PyTorch](https://pytorch.org/get-started/locally/)のインストール手順。 | |
| - [Flax](https://flax.readthedocs.io/en/latest/)のインストール手順。 | |
| ## pip でインストール | |
| Diffusersは[仮想環境](https://docs.python.org/3/library/venv.html)の中でインストールすることが推奨されています。 | |
| Python の仮想環境についてよく知らない場合は、こちらの [ガイド](https://packaging.python.org/guides/installing-using-pip-and-virtual-environments/) を参照してください。 | |
| 仮想環境は異なるプロジェクトの管理を容易にし、依存関係間の互換性の問題を回避します。 | |
| ではさっそく、プロジェクトディレクトリに仮想環境を作ってみます: | |
| ```bash | |
| python -m venv .env | |
| ``` | |
| 仮想環境をアクティブにします: | |
| ```bash | |
| source .env/bin/activate | |
| ``` | |
| 🤗 Diffusers もまた 🤗 Transformers ライブラリに依存しており、以下のコマンドで両方をインストールできます: | |
| ```bash | |
| pip install diffusers["torch"] transformers | |
| ``` | |
| ```bash | |
| pip install diffusers["flax"] transformers | |
| ``` | |
| ## ソースからのインストール | |
| ソースから🤗 Diffusersをインストールする前に、`torch`と🤗 Accelerateがインストールされていることを確認してください。 | |
| `torch`のインストールについては、`torch` [インストール](https://pytorch.org/get-started/locally/#start-locally)ガイドを参照してください。 | |
| 🤗 Accelerateをインストールするには: | |
| ```bash | |
| pip install accelerate | |
| ``` | |
| 以下のコマンドでソースから🤗 Diffusersをインストールできます: | |
| ```bash | |
| pip install git+https://github.com/huggingface/diffusers | |
| ``` | |
| このコマンドは最新の `stable` バージョンではなく、最先端の `main` バージョンをインストールします。 | |
| `main`バージョンは最新の開発に対応するのに便利です。 | |
| 例えば、前回の公式リリース以降にバグが修正されたが、新しいリリースがまだリリースされていない場合などには都合がいいです。 | |
| しかし、これは `main` バージョンが常に安定しているとは限らないです。 | |
| 私たちは `main` バージョンを運用し続けるよう努力しており、ほとんどの問題は通常数時間から1日以内に解決されます。 | |
| もし問題が発生した場合は、[Issue](https://github.com/huggingface/diffusers/issues/new/choose) を開いてください! | |
| ## 編集可能なインストール | |
| 以下の場合、編集可能なインストールが必要です: | |
| * ソースコードの `main` バージョンを使用する。 | |
| * 🤗 Diffusers に貢献し、コードの変更をテストする必要がある場合。 | |
| リポジトリをクローンし、次のコマンドで 🤗 Diffusers をインストールしてください: | |
| ```bash | |
| git clone https://github.com/huggingface/diffusers.git | |
| cd diffusers | |
| ``` | |
| ```bash | |
| pip install -e ".[torch]" | |
| ``` | |
| ```bash | |
| pip install -e ".[flax]" | |
| ``` | |
| これらのコマンドは、リポジトリをクローンしたフォルダと Python のライブラリパスをリンクします。 | |
| Python は通常のライブラリパスに加えて、クローンしたフォルダの中を探すようになります。 | |
| 例えば、Python パッケージが通常 `~/anaconda3/envs/main/lib/python3.10/site-packages/` にインストールされている場合、Python はクローンした `~/diffusers/` フォルダも同様に参照します。 | |
| > [!WARNING] | |
| > ライブラリを使い続けたい場合は、`diffusers`フォルダを残しておく必要があります。 | |
| これで、以下のコマンドで簡単にクローンを最新版の🤗 Diffusersにアップデートできます: | |
| ```bash | |
| cd ~/diffusers/ | |
| git pull | |
| ``` | |
| Python環境は次の実行時に `main` バージョンの🤗 Diffusersを見つけます。 | |
| ## テレメトリー・ロギングに関するお知らせ | |
| このライブラリは `from_pretrained()` リクエスト中にデータを収集します。 | |
| このデータには Diffusers と PyTorch/Flax のバージョン、要求されたモデルやパイプラインクラスが含まれます。 | |
| また、Hubでホストされている場合は、事前に学習されたチェックポイントへのパスが含まれます。 | |
| この使用データは問題のデバッグや新機能の優先順位付けに役立ちます。 | |
| テレメトリーはHuggingFace Hubからモデルやパイプラインをロードするときのみ送信されます。ローカルでの使用中は収集されません。 | |
| 我々は、すべての人が追加情報を共有したくないことを理解し、あなたのプライバシーを尊重します。 | |
| そのため、ターミナルから `DISABLE_TELEMETRY` 環境変数を設定することで、データ収集を無効にすることができます: | |
| Linux/MacOSの場合 | |
| ```bash | |
| export DISABLE_TELEMETRY=YES | |
| ``` | |
| Windows の場合 | |
| ```bash | |
| set DISABLE_TELEMETRY=YES | |
| ``` | |
| ### 簡単な案内 | |
| https://huggingface.co/docs/diffusers/pr_11739/ja/quicktour.md | |
| # 簡単な案内 | |
| 拡散モデル(Diffusion Model)は、ランダムな正規分布から段階的にノイズ除去するように学習され、画像や音声などの目的のものを生成できます。これは生成AIに多大な関心を呼び起こしました。インターネット上で拡散によって生成された画像の例を見たことがあるでしょう。🧨 Diffusersは、誰もが拡散モデルに広くアクセスできるようにすることを目的としたライブラリです。 | |
| この案内では、開発者または日常的なユーザーに関わらず、🧨 Diffusers を紹介し、素早く目的のものを生成できるようにします!このライブラリには3つの主要コンポーネントがあります: | |
| * `DiffusionPipeline`は事前に学習された拡散モデルからサンプルを迅速に生成するために設計された高レベルのエンドツーエンドクラス。 | |
| * 拡散システムを作成するためのビルディングブロックとして使用できる、人気のある事前学習された[モデル](./api/models)アーキテクチャとモジュール。 | |
| * 多くの異なる[スケジューラ](./api/schedulers/overview) - ノイズがどのようにトレーニングのために加えられるか、そして生成中にどのようにノイズ除去された画像を生成するかを制御するアルゴリズム。 | |
| この案内では、`DiffusionPipeline`を生成に使用する方法を紹介し、モデルとスケジューラを組み合わせて`DiffusionPipeline`の内部で起こっていることを再現する方法を説明します。 | |
| > [!TIP] | |
| > この案内は🧨 Diffusers [ノートブック](https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/diffusers_intro.ipynb)を簡略化したもので、すぐに使い始めることができます。Diffusers 🧨のゴール、設計哲学、コアAPIの詳細についてもっと知りたい方は、ノートブックをご覧ください! | |
| 始める前に必要なライブラリーがすべてインストールされていることを確認してください: | |
| ```py | |
| # uncomment to install the necessary libraries in Colab | |
| #!pip install --upgrade diffusers accelerate transformers | |
| ``` | |
| - [🤗 Accelerate](https://huggingface.co/docs/accelerate/index)生成とトレーニングのためのモデルのロードを高速化します | |
| - [Stable Diffusion](https://huggingface.co/docs/diffusers/api/pipelines/stable_diffusion/overview)ような最も一般的な拡散モデルを実行するには、[🤗 Transformers](https://huggingface.co/docs/transformers/index)が必要です。 | |
| ## 拡散パイプライン | |
| `DiffusionPipeline`は事前学習された拡散システムを生成に使用する最も簡単な方法です。これはモデルとスケジューラを含むエンドツーエンドのシステムです。`DiffusionPipeline`は多くの作業/タスクにすぐに使用することができます。また、サポートされているタスクの完全なリストについては[🧨Diffusersの概要](./api/pipelines/overview#diffusers-summary)の表を参照してください。 | |
| | **タスク** | **説明** | **パイプライン** | |
| |------------------------------|--------------------------------------------------------------------------------------------------------------|-----------------| | |
| | Unconditional Image Generation | 正規分布から画像生成 | [unconditional_image_generation](./using-diffusers/unconditional_image_generation) | | |
| | Text-Guided Image Generation | 文章から画像生成 | [conditional_image_generation](./using-diffusers/conditional_image_generation) | | |
| | Text-Guided Image-to-Image Translation | 画像と文章から新たな画像生成 | [img2img](./using-diffusers/img2img) | | |
| | Text-Guided Image-Inpainting | 画像、マスク、および文章が指定された場合に、画像のマスクされた部分を文章をもとに修復 | [inpaint](./using-diffusers/inpaint) | | |
| | Text-Guided Depth-to-Image Translation | 文章と深度推定によって構造を保持しながら画像生成 | [depth2img](./using-diffusers/depth2img) | | |
| まず、`DiffusionPipeline`のインスタンスを作成し、ダウンロードしたいパイプラインのチェックポイントを指定します。 | |
| この`DiffusionPipeline`はHugging Face Hubに保存されている任意の[チェックポイント](https://huggingface.co/models?library=diffusers&sort=downloads)を使用することができます。 | |
| この案内では、[`stable-diffusion-v1-5`](https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5)チェックポイントでテキストから画像へ生成します。 | |
| > [!WARNING] | |
| > [Stable Diffusion]モデルについては、モデルを実行する前にまず[ライセンス](https://huggingface.co/spaces/CompVis/stable-diffusion-license)を注意深くお読みください。🧨 Diffusers は、攻撃的または有害なコンテンツを防ぐために [`safety_checker`](https://github.com/huggingface/diffusers/blob/main/src/diffusers/pipelines/stable_diffusion/safety_checker.py) を実装していますが、モデルの改良された画像生成機能により、潜在的に有害なコンテンツが生成される可能性があります。 | |
| モデルを`from_pretrained()`メソッドでロードします: | |
| ```python | |
| >>> from diffusers import DiffusionPipeline | |
| >>> pipeline = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5", use_safetensors=True) | |
| ``` | |
| `DiffusionPipeline`は全てのモデリング、トークン化、スケジューリングコンポーネントをダウンロードしてキャッシュします。Stable Diffusionパイプラインは`UNet2DConditionModel`と`PNDMScheduler`などで構成されています: | |
| ```py | |
| >>> pipeline | |
| StableDiffusionPipeline { | |
| "_class_name": "StableDiffusionPipeline", | |
| "_diffusers_version": "0.13.1", | |
| ..., | |
| "scheduler": [ | |
| "diffusers", | |
| "PNDMScheduler" | |
| ], | |
| ..., | |
| "unet": [ | |
| "diffusers", | |
| "UNet2DConditionModel" | |
| ], | |
| "vae": [ | |
| "diffusers", | |
| "AutoencoderKL" | |
| ] | |
| } | |
| ``` | |
| このモデルはおよそ14億個のパラメータで構成されているため、GPU上でパイプラインを実行することを強く推奨します。 | |
| PyTorchと同じように、ジェネレータオブジェクトをGPUに移すことができます: | |
| ```python | |
| >>> pipeline.to("cuda") | |
| ``` | |
| これで、文章を `pipeline` に渡して画像を生成し、ノイズ除去された画像にアクセスできるようになりました。デフォルトでは、画像出力は[`PIL.Image`](https://pillow.readthedocs.io/en/stable/reference/Image.html?highlight=image#the-image-class)オブジェクトでラップされます。 | |
| ```python | |
| >>> image = pipeline("An image of a squirrel in Picasso style").images[0] | |
| >>> image | |
| ``` | |
| `save`関数で画像を保存できます: | |
| ```python | |
| >>> image.save("image_of_squirrel_painting.png") | |
| ``` | |
| ### ローカルパイプライン | |
| ローカルでパイプラインを使用することもできます。唯一の違いは、最初にウェイトをダウンロードする必要があることです: | |
| ```bash | |
| !git lfs install | |
| !git clone https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5 | |
| ``` | |
| 保存したウェイトをパイプラインにロードします: | |
| ```python | |
| >>> pipeline = DiffusionPipeline.from_pretrained("./stable-diffusion-v1-5", use_safetensors=True) | |
| ``` | |
| これで、上のセクションと同じようにパイプラインを動かすことができます。 | |
| ### スケジューラの交換 | |
| スケジューラーによって、ノイズ除去のスピードや品質のトレードオフが異なります。どれが自分に最適かを知る最善の方法は、実際に試してみることです!Diffusers 🧨の主な機能の1つは、スケジューラを簡単に切り替えることができることです。例えば、デフォルトの`PNDMScheduler`を`EulerDiscreteScheduler`に置き換えるには、`from_config()`メソッドでロードできます: | |
| ```py | |
| >>> from diffusers import EulerDiscreteScheduler | |
| >>> pipeline = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5", use_safetensors=True) | |
| >>> pipeline.scheduler = EulerDiscreteScheduler.from_config(pipeline.scheduler.config) | |
| ``` | |
| 新しいスケジューラを使って画像を生成し、その違いに気づくかどうか試してみてください! | |
| 次のセクションでは、`DiffusionPipeline`を構成するコンポーネント(モデルとスケジューラ)を詳しく見て、これらのコンポーネントを使って猫の画像を生成する方法を学びます。 | |
| ## モデル | |
| ほとんどのモデルはノイズの多いサンプルを取り、各タイムステップで*残りのノイズ*を予測します(他のモデルは前のサンプルを直接予測するか、速度または[`v-prediction`](https://github.com/huggingface/diffusers/blob/5e5ce13e2f89ac45a0066cb3f369462a3cf1d9ef/src/diffusers/schedulers/scheduling_ddim.py#L110)を予測するように学習します)。モデルを混ぜて他の拡散システムを作ることもできます。 | |
| モデルは`from_pretrained()`メソッドで開始されます。このメソッドはモデルをローカルにキャッシュするので、次にモデルをロードするときに高速になります。この案内では、`UNet2DModel`をロードします。これは基本的な画像生成モデルであり、猫画像で学習されたチェックポイントを使います: | |
| ```py | |
| >>> from diffusers import UNet2DModel | |
| >>> repo_id = "google/ddpm-cat-256" | |
| >>> model = UNet2DModel.from_pretrained(repo_id, use_safetensors=True) | |
| ``` | |
| モデルのパラメータにアクセスするには、`model.config` を呼び出せます: | |
| ```py | |
| >>> model.config | |
| ``` | |
| モデル構成は🧊凍結🧊されたディクショナリであり、モデル作成後にこれらのパラメー タを変更することはできません。これは意図的なもので、最初にモデル・アーキテクチャを定義するために使用されるパラメータが同じままであることを保証します。他のパラメータは生成中に調整することができます。 | |
| 最も重要なパラメータは以下の通りです: | |
| * sample_size`: 入力サンプルの高さと幅。 | |
| * `in_channels`: 入力サンプルの入力チャンネル数。 | |
| * down_block_types` と `up_block_types`: UNet アーキテクチャを作成するために使用されるダウンサンプリングブロックとアップサンプリングブロックのタイプ。 | |
| * block_out_channels`: ダウンサンプリングブロックの出力チャンネル数。逆順でアップサンプリングブロックの入力チャンネル数にも使用されます。 | |
| * layer_per_block`: 各 UNet ブロックに含まれる ResNet ブロックの数。 | |
| このモデルを生成に使用するには、ランダムな画像の形の正規分布を作成します。このモデルは複数のランダムな正規分布を受け取ることができるため`batch`軸を入れます。入力チャンネル数に対応する`channel`軸も必要です。画像の高さと幅に対応する`sample_size`軸を持つ必要があります: | |
| ```py | |
| >>> import torch | |
| >>> torch.manual_seed(0) | |
| >>> noisy_sample = torch.randn(1, model.config.in_channels, model.config.sample_size, model.config.sample_size) | |
| >>> noisy_sample.shape | |
| torch.Size([1, 3, 256, 256]) | |
| ``` | |
| 画像生成には、ノイズの多い画像と `timestep` をモデルに渡します。`timestep`は入力画像がどの程度ノイズが多いかを示します。これは、モデルが拡散プロセスにおける自分の位置を決定するのに役立ちます。モデルの出力を得るには `sample` メソッドを使用します: | |
| ```py | |
| >>> with torch.no_grad(): | |
| ... noisy_residual = model(sample=noisy_sample, timestep=2).sample | |
| ``` | |
| しかし、実際の例を生成するには、ノイズ除去プロセスをガイドするスケジューラが必要です。次のセクションでは、モデルをスケジューラと組み合わせる方法を学びます。 | |
| ## スケジューラ | |
| スケジューラは、モデルの出力(この場合は `noisy_residual` )が与えられたときに、ノイズの多いサンプルからノイズの少ないサンプルへの移行を管理します。 | |
| > [!TIP] | |
| > 🧨 Diffusersは拡散システムを構築するためのツールボックスです。`DiffusionPipeline`は事前に構築された拡散システムを使い始めるのに便利な方法ですが、独自のモデルとスケジューラコンポーネントを個別に選択してカスタム拡散システムを構築することもできます。 | |
| この案内では、`DDPMScheduler`を`from_config()`メソッドでインスタンス化します: | |
| ```py | |
| >>> from diffusers import DDPMScheduler | |
| >>> scheduler = DDPMScheduler.from_config(repo_id) | |
| >>> scheduler | |
| DDPMScheduler { | |
| "_class_name": "DDPMScheduler", | |
| "_diffusers_version": "0.13.1", | |
| "beta_end": 0.02, | |
| "beta_schedule": "linear", | |
| "beta_start": 0.0001, | |
| "clip_sample": true, | |
| "clip_sample_range": 1.0, | |
| "num_train_timesteps": 1000, | |
| "prediction_type": "epsilon", | |
| "trained_betas": null, | |
| "variance_type": "fixed_small" | |
| } | |
| ``` | |
| > [!TIP] | |
| > 💡 スケジューラがどのようにコンフィギュレーションからインスタンス化されるかに注目してください。モデルとは異なり、スケジューラは学習可能な重みを持たず、パラメーターを持ちません! | |
| 最も重要なパラメータは以下の通りです: | |
| * num_train_timesteps`: ノイズ除去処理の長さ、言い換えれば、ランダムな正規分布をデータサンプルに処理するのに必要なタイムステップ数です。 | |
| * `beta_schedule`: 生成とトレーニングに使用するノイズスケジュールのタイプ。 | |
| * `beta_start` と `beta_end`: ノイズスケジュールの開始値と終了値。 | |
| 少しノイズの少ない画像を予測するには、スケジューラの `step()` メソッドに以下を渡します: モデルの出力、`timestep`、現在の `sample`。 | |
| ```py | |
| >>> less_noisy_sample = scheduler.step(model_output=noisy_residual, timestep=2, sample=noisy_sample).prev_sample | |
| >>> less_noisy_sample.shape | |
| ``` | |
| `less_noisy_sample`は次の`timestep`に渡すことができ、そこでさらにノイズが少なくなります! | |
| では、すべてをまとめて、ノイズ除去プロセス全体を視覚化してみましょう。 | |
| まず、ノイズ除去された画像を後処理して `PIL.Image` として表示する関数を作成します: | |
| ```py | |
| >>> import PIL.Image | |
| >>> import numpy as np | |
| >>> def display_sample(sample, i): | |
| ... image_processed = sample.cpu().permute(0, 2, 3, 1) | |
| ... image_processed = (image_processed + 1.0) * 127.5 | |
| ... image_processed = image_processed.numpy().astype(np.uint8) | |
| ... image_pil = PIL.Image.fromarray(image_processed[0]) | |
| ... display(f"Image at step {i}") | |
| ... display(image_pil) | |
| ``` | |
| ノイズ除去処理を高速化するために入力とモデルをGPUに移します: | |
| ```py | |
| >>> model.to("cuda") | |
| >>> noisy_sample = noisy_sample.to("cuda") | |
| ``` | |
| ここで、ノイズが少なくなったサンプルの残りのノイズを予測するノイズ除去ループを作成し、スケジューラを使ってさらにノイズの少ないサンプルを計算します: | |
| ```py | |
| >>> import tqdm | |
| >>> sample = noisy_sample | |
| >>> for i, t in enumerate(tqdm.tqdm(scheduler.timesteps)): | |
| ... # 1. predict noise residual | |
| ... with torch.no_grad(): | |
| ... residual = model(sample, t).sample | |
| ... # 2. compute less noisy image and set x_t -> x_t-1 | |
| ... sample = scheduler.step(residual, t, sample).prev_sample | |
| ... # 3. optionally look at image | |
| ... if (i + 1) % 50 == 0: | |
| ... display_sample(sample, i + 1) | |
| ``` | |
| 何もないところから猫が生成されるのを、座って見てください!😻 | |
| ## 次のステップ | |
| このクイックツアーで、🧨ディフューザーを使ったクールな画像をいくつか作成できたと思います!次のステップとして | |
| * モデルをトレーニングまたは微調整については、[training](./tutorials/basic_training)チュートリアルを参照してください。 | |
| * 様々な使用例については、公式およびコミュニティの[training or finetuning scripts](https://github.com/huggingface/diffusers/tree/main/examples#-diffusers-examples)の例を参照してください。 | |
| * スケジューラのロード、アクセス、変更、比較については[Using different Schedulers](./using-diffusers/schedulers)ガイドを参照してください。 | |
| * プロンプトエンジニアリング、スピードとメモリの最適化、より高品質な画像を生成するためのヒントやトリックについては、[Stable Diffusion](./stable_diffusion)ガイドを参照してください。 | |
| * 🧨 Diffusers の高速化については、最適化された [PyTorch on a GPU](./optimization/fp16)のガイド、[Stable Diffusion on Apple Silicon (M1/M2)](./optimization/mps)と[ONNX Runtime](./optimization/onnx)を参照してください。 | |
| ### Diffusers | |
| https://huggingface.co/docs/diffusers/pr_11739/ja/index.md | |
| # Diffusers | |
| 🤗 Diffusers は、画像や音声、さらには分子の3D構造を生成するための、最先端の事前学習済みDiffusion Model(拡散モデル)を提供するライブラリです。シンプルな生成ソリューションをお探しの場合でも、独自の拡散モデルをトレーニングしたい場合でも、🤗 Diffusers はその両方をサポートするモジュール式のツールボックスです。私たちのライブラリは、[性能より使いやすさ](conceptual/philosophy#usability-over-performance)、[簡単よりシンプル](conceptual/philosophy#simple-over-easy)、[抽象化よりカスタマイズ性](conceptual/philosophy#tweakable-contributorfriendly-over-abstraction)に重点を置いて設計されています。 | |
| このライブラリには3つの主要コンポーネントがあります: | |
| - 数行のコードで推論可能な最先端の[拡散パイプライン](api/pipelines/overview)。Diffusersには多くのパイプラインがあります。利用可能なパイプラインを網羅したリストと、それらが解決するタスクについては、パイプラインの[概要](https://huggingface.co/docs/diffusers/api/pipelines/overview)の表をご覧ください。 | |
| - 生成速度と品質のトレードオフのバランスを取る交換可能な[ノイズスケジューラ](api/schedulers/overview) | |
| - ビルディングブロックとして使用することができ、スケジューラと組み合わせることで、エンドツーエンドの拡散モデルを構築可能な事前学習済み[モデル](api/models) | |
| チュートリアル | |
| 出力の生成、独自の拡散システムの構築、拡散モデルのトレーニングを開始するために必要な基本的なスキルを学ぶことができます。初めて 🤗Diffusersを使用する場合は、ここから始めることをおすすめします! | |
| ガイド | |
| パイプライン、モデル、スケジューラの読み込みに役立つ実践的なガイドです。また、特定のタスクにパイプラインを使用する方法、出力の生成方法を制御する方法、生成速度を最適化する方法、さまざまなトレーニング手法についても学ぶことができます。 | |
| Conceptual guides | |
| ライブラリがなぜこのように設計されたのかを理解し、ライブラリを利用する際の倫理的ガイドラインや安全対策について詳しく学べます。 | |
| リファレンス | |
| 🤗 Diffusersのクラスとメソッドがどのように機能するかについての技術的な説明です。 | |
| ### Overview | |
| https://huggingface.co/docs/diffusers/pr_11739/ja/tutorials/tutorial_overview.md | |
| # Overview | |
| ようこそ 🧨Diffusersへ!拡散モデル(diffusion models)や生成AIの初心者で、さらに学びたいのであれば、このチュートリアルが最適です。この初心者向けのチュートリアルは、拡散モデルについて丁寧に解説し、ライブラリの基礎(核となるコンポーネントと 🧨Diffusersの使用方法)を理解することを目的としています。 | |
| まず、推論のためのパイプラインを使って、素早く生成する方法を学んでいきます。次に、独自の拡散システムを構築するためのモジュラーツールボックスとしてライブラリをどのように使えば良いかを理解するために、そのパイプラインを分解してみましょう。次のレッスンでは、あなたの欲しいものを生成できるように拡散モデルをトレーニングする方法を学びましょう。 | |
| このチュートリアルがすべて完了したら、ライブラリを自分で調べ、自分のプロジェクトやアプリケーションにどのように使えるかを知るために必要なスキルを身につけることができます。 | |
| そして、 [Discord](https://discord.com/invite/JfAtkvEtRb) や [forums](https://discuss.huggingface.co/c/discussion-related-to-httpsgithubcomhuggingfacediffusers/63) でDiffusersコミュニティに参加してユーザーや開発者と繋がって協力していきましょう。 | |
| さあ、「拡散」をはじめていきましょう!🧨 | |
| ### AutoPipeline | |
| https://huggingface.co/docs/diffusers/pr_11739/ja/tutorials/autopipeline.md | |
| # AutoPipeline | |
| Diffusersは様々なタスクをこなすことができ、テキストから画像、画像から画像、画像の修復など、複数のタスクに対して同じように事前学習された重みを再利用することができます。しかし、ライブラリや拡散モデルに慣れていない場合、どのタスクにどのパイプラインを使えばいいのかがわかりにくいかもしれません。例えば、 [stable-diffusion-v1-5/stable-diffusion-v1-5](https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5) チェックポイントをテキストから画像に変換するために使用している場合、それぞれ`StableDiffusionImg2ImgPipeline`クラスと`StableDiffusionInpaintPipeline`クラスでチェックポイントをロードすることで、画像から画像や画像の修復にも使えることを知らない可能性もあります。 | |
| `AutoPipeline` クラスは、🤗 Diffusers の様々なパイプラインをよりシンプルするために設計されています。この汎用的でタスク重視のパイプラインによってタスクそのものに集中することができます。`AutoPipeline` は、使用するべき正しいパイプラインクラスを自動的に検出するため、特定のパイプラインクラス名を知らなくても、タスクのチェックポイントを簡単にロードできます。 | |
| > [!TIP] | |
| > どのタスクがサポートされているかは、[AutoPipeline](../api/pipelines/auto_pipeline) のリファレンスをご覧ください。現在、text-to-image、image-to-image、inpaintingをサポートしています。 | |
| このチュートリアルでは、`AutoPipeline` を使用して、事前に学習された重みが与えられたときに、特定のタスクを読み込むためのパイプラインクラスを自動的に推測する方法を示します。 | |
| ## タスクに合わせてAutoPipeline を選択する | |
| まずはチェックポイントを選ぶことから始めましょう。例えば、 [stable-diffusion-v1-5/stable-diffusion-v1-5](https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5) チェックポイントでテキストから画像への変換したいなら、`AutoPipelineForText2Image`を使います: | |
| ```py | |
| from diffusers import AutoPipelineForText2Image | |
| import torch | |
| pipeline = AutoPipelineForText2Image.from_pretrained( | |
| "stable-diffusion-v1-5/stable-diffusion-v1-5", torch_dtype=torch.float16, use_safetensors=True | |
| ).to("cuda") | |
| prompt = "peasant and dragon combat, wood cutting style, viking era, bevel with rune" | |
| image = pipeline(prompt, num_inference_steps=25).images[0] | |
| image | |
| ``` | |
| `AutoPipelineForText2Image` を具体的に見ていきましょう: | |
| 1. [`model_index.json`](https://huggingface.co/stable-diffusion-v1-5/stable-diffusion-v1-5/blob/main/model_index.json) ファイルから `"stable-diffusion"` クラスを自動的に検出します。 | |
| 2. `"stable-diffusion"` のクラス名に基づいて、テキストから画像へ変換する `StableDiffusionPipeline` を読み込みます。 | |
| 同様に、画像から画像へ変換する場合、`AutoPipelineForImage2Image` は `model_index.json` ファイルから `"stable-diffusion"` チェックポイントを検出し、対応する `StableDiffusionImg2ImgPipeline` を読み込みます。また、入力画像にノイズの量やバリエーションの追加を決めるための強さなど、パイプラインクラスに固有の追加引数を渡すこともできます: | |
| ```py | |
| from diffusers import AutoPipelineForImage2Image | |
| import torch | |
| import requests | |
| from PIL import Image | |
| from io import BytesIO | |
| pipeline = AutoPipelineForImage2Image.from_pretrained( | |
| "stable-diffusion-v1-5/stable-diffusion-v1-5", | |
| torch_dtype=torch.float16, | |
| use_safetensors=True, | |
| ).to("cuda") | |
| prompt = "a portrait of a dog wearing a pearl earring" | |
| url = "https://upload.wikimedia.org/wikipedia/commons/thumb/0/0f/1665_Girl_with_a_Pearl_Earring.jpg/800px-1665_Girl_with_a_Pearl_Earring.jpg" | |
| response = requests.get(url) | |
| image = Image.open(BytesIO(response.content)).convert("RGB") | |
| image.thumbnail((768, 768)) | |
| image = pipeline(prompt, image, num_inference_steps=200, strength=0.75, guidance_scale=10.5).images[0] | |
| image | |
| ``` | |
| また、画像の修復を行いたい場合は、 `AutoPipelineForInpainting` が、同様にベースとなる`StableDiffusionInpaintPipeline`クラスを読み込みます: | |
| ```py | |
| from diffusers import AutoPipelineForInpainting | |
| from diffusers.utils import load_image | |
| import torch | |
| pipeline = AutoPipelineForInpainting.from_pretrained( | |
| "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True | |
| ).to("cuda") | |
| img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png" | |
| mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png" | |
| init_image = load_image(img_url).convert("RGB") | |
| mask_image = load_image(mask_url).convert("RGB") | |
| prompt = "A majestic tiger sitting on a bench" | |
| image = pipeline(prompt, image=init_image, mask_image=mask_image, num_inference_steps=50, strength=0.80).images[0] | |
| image | |
| ``` | |
| サポートされていないチェックポイントを読み込もうとすると、エラーになります: | |
| ```py | |
| from diffusers import AutoPipelineForImage2Image | |
| import torch | |
| pipeline = AutoPipelineForImage2Image.from_pretrained( | |
| "openai/shap-e-img2img", torch_dtype=torch.float16, use_safetensors=True | |
| ) | |
| "ValueError: AutoPipeline can't find a pipeline linked to ShapEImg2ImgPipeline for None" | |
| ``` | |
| ## 複数のパイプラインを使用する | |
| いくつかのワークフローや多くのパイプラインを読み込む場合、不要なメモリを使ってしまう再読み込みをするよりも、チェックポイントから同じコンポーネントを再利用する方がメモリ効率が良いです。たとえば、テキストから画像への変換にチェックポイントを使い、画像から画像への変換にまたチェックポイントを使いたい場合、[from_pipe()](https://huggingface.co/docs/diffusers/v0.25.1/en/api/pipelines/auto_pipeline#diffusers.AutoPipelineForImage2Image.from_pipe) メソッドを使用します。このメソッドは、以前読み込まれたパイプラインのコンポーネントを使うことで追加のメモリを消費することなく、新しいパイプラインを作成します。 | |
| [from_pipe()](https://huggingface.co/docs/diffusers/v0.25.1/en/api/pipelines/auto_pipeline#diffusers.AutoPipelineForImage2Image.from_pipe) メソッドは、元のパイプラインクラスを検出し、実行したいタスクに対応する新しいパイプラインクラスにマッピングします。例えば、テキストから画像への`"stable-diffusion"` クラスのパイプラインを読み込む場合: | |
| ```py | |
| from diffusers import AutoPipelineForText2Image, AutoPipelineForImage2Image | |
| import torch | |
| pipeline_text2img = AutoPipelineForText2Image.from_pretrained( | |
| "stable-diffusion-v1-5/stable-diffusion-v1-5", torch_dtype=torch.float16, use_safetensors=True | |
| ) | |
| print(type(pipeline_text2img)) | |
| "" | |
| ``` | |
| そして、[from_pipe()] (https://huggingface.co/docs/diffusers/v0.25.1/en/api/pipelines/auto_pipeline#diffusers.AutoPipelineForImage2Image.from_pipe)は、もとの`"stable-diffusion"` パイプラインのクラスである `StableDiffusionImg2ImgPipeline` にマップします: | |
| ```py | |
| pipeline_img2img = AutoPipelineForImage2Image.from_pipe(pipeline_text2img) | |
| print(type(pipeline_img2img)) | |
| "" | |
| ``` | |
| 元のパイプラインにオプションとして引数(セーフティチェッカーの無効化など)を渡した場合、この引数も新しいパイプラインに渡されます: | |
| ```py | |
| from diffusers import AutoPipelineForText2Image, AutoPipelineForImage2Image | |
| import torch | |
| pipeline_text2img = AutoPipelineForText2Image.from_pretrained( | |
| "stable-diffusion-v1-5/stable-diffusion-v1-5", | |
| torch_dtype=torch.float16, | |
| use_safetensors=True, | |
| requires_safety_checker=False, | |
| ).to("cuda") | |
| pipeline_img2img = AutoPipelineForImage2Image.from_pipe(pipeline_text2img) | |
| print(pipeline_img2img.config.requires_safety_checker) | |
| "False" | |
| ``` | |
| 新しいパイプラインの動作を変更したい場合は、元のパイプラインの引数や設定を上書きすることができます。例えば、セーフティチェッカーをオンに戻し、`strength` 引数を追加します: | |
| ```py | |
| pipeline_img2img = AutoPipelineForImage2Image.from_pipe(pipeline_text2img, requires_safety_checker=True, strength=0.3) | |
| print(pipeline_img2img.config.requires_safety_checker) | |
| "True" | |
| ``` | |
Xet Storage Details
- Size:
- 50.7 kB
- Xet hash:
- b6426237c519a2094086416901d11ab6efc45652523f3c739c8262ca52ef18db
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.