Cool Japan Diffusion 2.1.2 Model Card

ใ‚ขใ‚คใ‚ญใƒฃใƒƒใƒ

English version is here.

ใฏใ˜ใ‚ใซ

Cool Japan Diffusion ใฏStable Diffsionใ‚’ใƒ•ใ‚กใ‚คใƒณใƒใƒฅใƒผใƒ‹ใƒณใ‚ฐใ—ใฆใ€ใ‚ขใƒ‹ใƒกใ‚„ใƒžใƒณใ‚ฌใ€ใ‚ฒใƒผใƒ ใชใฉใฎใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณใ‚’่กจ็พใ™ใ‚‹ใ“ใจใซ็‰นๅŒ–ใ—ใŸใƒขใƒ‡ใƒซใงใ™ใ€‚ใชใŠใ€ๅ†…้–ฃๅบœใฎใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณๆˆฆ็•ฅใจใฏ็‰นใซ้–ขไฟ‚ใฏใ‚ใ‚Šใพใ›ใ‚“ใ€‚

ไฝฟใ„ๆ–น

ๆ‰‹่ปฝใซๆฅฝใ—ใฟใŸใ„ๆ–นใฏใ€ใ“ใกใ‚‰ใฎSpaceใ‚’ใŠไฝฟใ„ใใ ใ•ใ„ใ€‚ ่ฉณใ—ใ„ๆœฌใƒขใƒ‡ใƒซใฎๅ–ใ‚Šๆ‰ฑใ„ๆ–นใฏใ“ใกใ‚‰ใฎๅ–ๆ‰ฑ่ชฌๆ˜Žๆ›ธใซใ‹ใ‹ใ‚Œใฆใ„ใพใ™ใ€‚ ใƒขใƒ‡ใƒซใฏใ“ใ“ใ‹ใ‚‰ใƒ€ใ‚ฆใƒณใƒญใƒผใƒ‰ใงใใพใ™ใ€‚

ใƒฉใ‚คใ‚ปใƒณใ‚นใซใคใ„ใฆ

ใƒฉใ‚คใ‚ปใƒณใ‚นใซใคใ„ใฆใฏใ€ใ‚‚ใจใฎใƒฉใ‚คใ‚ปใƒณใ‚น CreativeML Open RAIL++-M License ใซไพ‹ๅค–ใ‚’้™คใๅ•†็”จๅˆฉ็”จ็ฆๆญขใ‚’่ฟฝๅŠ ใ—ใŸใ ใ‘ใงใ™ใ€‚ ไพ‹ๅค–ใ‚’้™คใๅ•†็”จๅˆฉ็”จ็ฆๆญขใ‚’่ฟฝๅŠ ใ—ใŸ็†็”ฑใฏๅ‰ตไฝœๆฅญ็•Œใซๆ‚ชๅฝฑ้Ÿฟใ‚’ๅŠใผใ—ใ‹ใญใชใ„ใจใ„ใ†ๆ‡ธๅฟตใ‹ใ‚‰ใงใ™ใ€‚ ใ“ใฎๆ‡ธๅฟตใŒๆ‰•ๆ‹ญใ•ใ‚Œใ‚Œใฐใ€ๆฌกใฎใƒใƒผใ‚ธใƒงใƒณใ‹ใ‚‰ๅ…ƒใฎใƒฉใ‚คใ‚ปใƒณใ‚นใซๆˆปใ—ใ€ๅ•†็”จๅˆฉ็”จๅฏ่ƒฝใจใ—ใพใ™ใ€‚ ใกใชใฟใซใ€ๅ…ƒใฎใƒฉใ‚คใ‚ปใƒณใ‚นใฎๆ—ฅๆœฌ่ชž่จณใฏใ“ใกใ‚‰ใซใชใ‚Šใพใ™ใ€‚ ๅ–ถๅˆฉไผๆฅญใซใ„ใ‚‹ๆ–นใฏๆณ•ๅ‹™้ƒจใซใ„ใ‚‹ไบบใจ็›ธ่ซ‡ใ—ใฆใใ ใ•ใ„ใ€‚ ่ถฃๅ‘ณใงๅˆฉ็”จใ™ใ‚‹ๆ–นใฏใ‚ใพใ‚Šๆฐ—ใซใ—ใชใใฆใ‚‚ไธ€่ˆฌๅธธ่ญ˜ใ‚’ๅฎˆใ‚Œใฐๅคงไธˆๅคซใชใฏใšใงใ™ใ€‚ ใชใŠใ€ใƒฉใ‚คใ‚ปใƒณใ‚นใซใ‚ใ‚‹้€šใ‚Šใ€ใ“ใฎใƒขใƒ‡ใƒซใ‚’ๆ”น้€ ใ—ใฆใ‚‚ใ€ใ“ใฎใƒฉใ‚คใ‚ปใƒณใ‚นใ‚’ๅผ•ใ็ถ™ใๅฟ…่ฆใŒใ‚ใ‚Šใพใ™ใ€‚

ๆณ•ๅพ‹ใ‚„ๅ€ซ็†ใซใคใ„ใฆ

ๆœฌใƒขใƒ‡ใƒซใฏๆ—ฅๆœฌใซใฆไฝœๆˆใ•ใ‚Œใพใ—ใŸใ€‚ใ—ใŸใŒใฃใฆใ€ๆ—ฅๆœฌใฎๆณ•ๅพ‹ใŒ้ฉ็”จใ•ใ‚Œใพใ™ใ€‚ ๆœฌใƒขใƒ‡ใƒซใฎๅญฆ็ฟ’ใฏใ€่‘—ไฝœๆจฉๆณ•็ฌฌ30ๆกใฎ4ใซๅŸบใฅใใ€ๅˆๆณ•ใงใ‚ใ‚‹ใจไธปๅผตใ—ใพใ™ใ€‚ ใพใŸใ€ๆœฌใƒขใƒ‡ใƒซใฎ้…ๅธƒใซใคใ„ใฆใฏใ€่‘—ไฝœๆจฉๆณ•ใ‚„ๅˆ‘ๆณ•175ๆกใซ็…งใ‚‰ใ—ใฆใฟใฆใ‚‚ใ€ ๆญฃ็Šฏใ‚„ๅน‡ๅŠฉ็Šฏใซใ‚‚่ฉฒๅฝ“ใ—ใชใ„ใจไธปๅผตใ—ใพใ™ใ€‚่ฉณใ—ใใฏๆŸฟๆฒผๅผ่ญทๅฃซใฎ่ฆ‹่งฃใ‚’ๅพก่ฆงใใ ใ•ใ„ใ€‚ ใŸใ ใ—ใ€ใƒฉใ‚คใ‚ปใƒณใ‚นใซใ‚‚ใ‚ใ‚‹้€šใ‚Šใ€ๆœฌใƒขใƒ‡ใƒซใฎ็”Ÿๆˆ็‰ฉใฏๅ„็จฎๆณ•ไปคใซๅพ“ใฃใฆๅ–ใ‚Šๆ‰ฑใฃใฆไธ‹ใ•ใ„ใ€‚

ใ—ใ‹ใ—ใ€ๆœฌใƒขใƒ‡ใƒซใ‚’้…ๅธƒใ™ใ‚‹่กŒ็‚บใŒๅ€ซ็†็š„ใซ่‰ฏใใชใ„ใจใฏไฝœ่€…ใฏๆ€ใฃใฆใ„ใพใ™ใ€‚ ใ“ใ‚Œใฏๅญฆ็ฟ’ใ™ใ‚‹่‘—ไฝœ็‰ฉใซๅฏพใ—ใฆ่‘—ไฝœ่€…ใฎ่จฑๅฏใ‚’ๅพ—ใฆใ„ใชใ„ใŸใ‚ใงใ™ใ€‚ ใŸใ ใ—ใ€ๅญฆ็ฟ’ใ™ใ‚‹ใซใฏ่‘—ไฝœ่€…ใฎ่จฑๅฏใฏๆณ•ๅพ‹ไธŠๅฟ…่ฆใ‚‚ใชใใ€ๆคœ็ดขใ‚จใƒณใ‚ธใƒณใจๅŒๆง˜ๆณ•ๅพ‹ไธŠใฏๅ•้กŒใฏใ‚ใ‚Šใพใ›ใ‚“ใ€‚ ใ—ใŸใŒใฃใฆใ€ๆณ•็š„ใชๅด้ขใงใฏใชใใ€ๅ€ซ็†็š„ใชๅด้ขใ‚’่ชฟๆŸปใ™ใ‚‹็›ฎ็š„ใ‚‚ๆœฌ้…ๅธƒใฏๅ…ผใญใฆใ„ใ‚‹ใจ่€ƒใˆใฆใใ ใ•ใ„ใ€‚

ไปฅไธ‹ใ€ไธ€่ˆฌ็š„ใชใƒขใƒ‡ใƒซใ‚ซใƒผใƒ‰ใฎๆ—ฅๆœฌ่ชž่จณใงใ™ใ€‚

ใƒขใƒ‡ใƒซ่ฉณ็ดฐ

  • ้–‹็™บ่€…: Robin Rombach, Patrick Esser, Alfred Increment

  • ใƒขใƒ‡ใƒซใ‚ฟใ‚คใƒ—: ๆ‹กๆ•ฃใƒขใƒ‡ใƒซใƒ™ใƒผใ‚นใฎ text-to-image ็”Ÿๆˆใƒขใƒ‡ใƒซ

  • ่จ€่ชž: ๆ—ฅๆœฌ่ชž

  • ใƒฉใ‚คใ‚ปใƒณใ‚น: CreativeML Open RAIL++-M-NC License

  • ใƒขใƒ‡ใƒซใฎ่ชฌๆ˜Ž: ใ“ใฎใƒขใƒ‡ใƒซใฏใƒ—ใƒญใƒณใƒ—ใƒˆใซๅฟœใ˜ใฆ้ฉๅˆ‡ใช็”ปๅƒใ‚’็”Ÿๆˆใ™ใ‚‹ใ“ใจใŒใงใใพใ™ใ€‚ใ‚ขใƒซใ‚ดใƒชใ‚บใƒ ใฏ Latent Diffusion Model ใจ OpenCLIP-ViT/H ใงใ™ใ€‚

  • ่ฃœ่ถณ:

  • ๅ‚่€ƒๆ–‡็Œฎ:

    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }
    

ใƒขใƒ‡ใƒซใฎไฝฟ็”จไพ‹

Stable Diffusion v2ใจๅŒใ˜ไฝฟใ„ๆ–นใงใ™ใ€‚ ใŸใใ•ใ‚“ใฎๆ–นๆณ•ใŒใ‚ใ‚Šใพใ™ใŒใ€๏ผ’ใคใฎใƒ‘ใ‚ฟใƒผใƒณใ‚’ๆไพ›ใ—ใพใ™ใ€‚

  • Web UI
  • Diffusers

Web UIใฎๅ ดๅˆ

ไปŠๅ›žใ‹ใ‚‰ใฏxformersใ‚’ใ‚คใƒณใ‚นใƒˆใƒผใƒซใ™ใ‚‹ใ“ใจใ‚’ใŠใ™ใ™ใ‚ใ—ใพใ™ใ€‚ ใ“ใกใ‚‰ใฎๅ–ๆ‰ฑ่ชฌๆ˜Žๆ›ธใซๅพ“ใฃใฆไฝœๆˆใ—ใฆใใ ใ•ใ„ใ€‚

Diffusersใฎๅ ดๅˆ

๐Ÿค—'s Diffusers library ใ‚’ไฝฟใฃใฆใใ ใ•ใ„ใ€‚

ใพใšใฏใ€ไปฅไธ‹ใฎใ‚นใ‚ฏใƒชใƒ—ใƒˆใ‚’ๅฎŸ่กŒใ—ใ€ใƒฉใ‚คใƒ–ใƒฉใƒชใ‚’ใ„ใ‚Œใฆใใ ใ•ใ„ใ€‚

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy

ๆฌกใฎใ‚นใ‚ฏใƒชใƒ—ใƒˆใ‚’ๅฎŸ่กŒใ—ใ€็”ปๅƒใ‚’็”Ÿๆˆใ—ใฆใใ ใ•ใ„ใ€‚

from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
import torch

model_id = "aipicasso/cool-japan-diffusion-2-1-2"

scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float32)
pipe = pipe.to("cuda")

prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
images[0].save("girl.png")

ๆณจๆ„:

  • xformers ใ‚’ไฝฟใ†ใจๆ—ฉใใชใ‚‹ใ‚‰ใ—ใ„ใงใ™ใ€‚
  • GPUใ‚’ไฝฟใ†้š›ใซGPUใฎใƒกใƒขใƒชใŒๅฐ‘ใชใ„ไบบใฏ pipe.enable_attention_slicing() ใ‚’ไฝฟใฃใฆใใ ใ•ใ„ใ€‚

ๆƒณๅฎšใ•ใ‚Œใ‚‹็”จ้€”

  • ็”ปๅƒ็”ŸๆˆAIใซ้–ขใ™ใ‚‹ๅ ฑ้“
    • ๅ…ฌๅ…ฑๆ”พ้€ใ ใ‘ใงใชใใ€ๅ–ถๅˆฉไผๆฅญใงใ‚‚ๅฏ่ƒฝ
      • ็”ปๅƒๅˆๆˆAIใซ้–ขใ™ใ‚‹ๆƒ…ๅ ฑใ‚’ใ€Œ็Ÿฅใ‚‹ๆจฉๅˆฉใ€ใฏๅ‰ตไฝœๆฅญ็•Œใซๆ‚ชๅฝฑ้Ÿฟใ‚’ๅŠใผใ•ใชใ„ใจๅˆคๆ–ญใ—ใŸใŸใ‚ใงใ™ใ€‚ใพใŸใ€ๅ ฑ้“ใฎ่‡ช็”ฑใชใฉใ‚’ๅฐŠ้‡ใ—ใพใ—ใŸใ€‚
  • ใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณใฎ็ดนไป‹
    • ไป–ๅ›ฝใฎไบบใซใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณใจใฏใชใซใ‹ใ‚’่ชฌๆ˜Žใ™ใ‚‹ใ“ใจใ€‚
      • ไป–ๅ›ฝใฎ็•™ๅญฆ็”Ÿใฏใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณใซๆƒนใ‹ใ‚Œใฆๆ—ฅๆœฌใซๆฅใ‚‹ใ“ใจใŒใŠใŠใใ‚ใ‚Šใพใ™ใ€‚ใใ“ใงใ€ใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณใŒๆ—ฅๆœฌใงใฏใ€Œใ‚ฏใƒผใƒซใงใชใ„ใ€ใจใ•ใ‚Œใฆใ„ใ‚‹ใ“ใจใซใŒใฃใ‹ใ‚Šใ•ใ‚Œใ‚‹ใ“ใจใŒใจใฆใ‚‚ๅคšใ„ใจAlfred Incrementใฏๆ„Ÿใ˜ใฆใŠใ‚Šใพใ™ใ€‚ไป–ๅ›ฝใฎไบบใŒๆ†งใ‚Œใ‚‹่‡ชๅ›ฝใฎๆ–‡ๅŒ–ใ‚’ใ‚‚ใฃใจ่ช‡ใ‚Šใซๆ€ใฃใฆใใ ใ•ใ„ใ€‚
  • ็ ”็ฉถ้–‹็™บ
    • DiscordไธŠใงใฎใƒขใƒ‡ใƒซใฎๅˆฉ็”จ
      • ใƒ—ใƒญใƒณใƒ—ใƒˆใ‚จใƒณใ‚ธใƒ‹ใ‚ขใƒชใƒณใ‚ฐ
      • ใƒ•ใ‚กใ‚คใƒณใƒใƒฅใƒผใƒ‹ใƒณใ‚ฐ๏ผˆ่ฟฝๅŠ ๅญฆ็ฟ’ใจใ‚‚๏ผ‰
        • DreamBooth ใชใฉ
      • ไป–ใฎใƒขใƒ‡ใƒซใจใฎใƒžใƒผใ‚ธ
    • Latent Diffusion Modelใจใ‚ฏใƒผใƒซใ‚ธใƒฃใƒ‘ใƒณใจใฎ็›ธๆ€ง
    • ๆœฌใƒขใƒ‡ใƒซใฎๆ€ง่ƒฝใ‚’FIDใชใฉใง่ชฟในใ‚‹ใ“ใจ
    • ๆœฌใƒขใƒ‡ใƒซใŒStable Diffusionไปฅๅค–ใฎใƒขใƒ‡ใƒซใจใฏ็‹ฌ็ซ‹ใงใ‚ใ‚‹ใ“ใจใ‚’ใƒใ‚งใƒƒใ‚ฏใ‚ตใƒ ใ‚„ใƒใƒƒใ‚ทใƒฅ้–ขๆ•ฐใชใฉใง่ชฟในใ‚‹ใ“ใจ
  • ๆ•™่‚ฒ
    • ็พŽๅคง็”Ÿใ‚„ๅฐ‚้–€ๅญฆๆ ก็”Ÿใฎๅ’ๆฅญๅˆถไฝœ
    • ๅคงๅญฆ็”Ÿใฎๅ’ๆฅญ่ซ–ๆ–‡ใ‚„่ชฒ้กŒๅˆถไฝœ
    • ๅ…ˆ็”ŸใŒ็”ปๅƒ็”ŸๆˆAIใฎ็พ็Šถใ‚’ไผใˆใ‚‹ใ“ใจ
  • ่‡ชๅทฑ่กจ็พ
    • SNSไธŠใง่‡ชๅˆ†ใฎๆ„Ÿๆƒ…ใ‚„ๆ€่€ƒใ‚’่กจ็พใ™ใ‚‹ใ“ใจ
  • Hugging Face ใฎ Community ใซใ‹ใ„ใฆใ‚ใ‚‹็”จ้€”
    • ๆ—ฅๆœฌ่ชžใ‹่‹ฑ่ชžใง่ณชๅ•ใ—ใฆใใ ใ•ใ„

ๆƒณๅฎšใ•ใ‚Œใชใ„็”จ้€”

  • ็‰ฉไบ‹ใ‚’ไบ‹ๅฎŸใจใ—ใฆ่กจ็พใ™ใ‚‹ใ‚ˆใ†ใชใ“ใจ
  • ๅŽ็›ŠๅŒ–ใ•ใ‚Œใฆใ„ใ‚‹YouTubeใชใฉใฎใ‚ณใƒณใƒ†ใƒณใƒ„ใธใฎไฝฟ็”จ
  • ๅ•†็”จใฎใ‚ตใƒผใƒ“ใ‚นใจใ—ใฆ็›ดๆŽฅๆไพ›ใ™ใ‚‹ใ“ใจ
  • ๅ…ˆ็”Ÿใ‚’ๅ›ฐใ‚‰ใ›ใ‚‹ใ‚ˆใ†ใชใ“ใจ
  • ใใฎไป–ใ€ๅ‰ตไฝœๆฅญ็•Œใซๆ‚ชๅฝฑ้Ÿฟใ‚’ๅŠใผใ™ใ“ใจ

ไฝฟ็”จใ—ใฆใฏใ„ใ‘ใชใ„็”จ้€”ใ‚„ๆ‚ชๆ„ใฎใ‚ใ‚‹็”จ้€”

  • ใƒ‡ใ‚ธใ‚ฟใƒซ่ด‹ไฝœ (Digital Forgery) ใฏๅ…ฌ้–‹ใ—ใชใ„ใงใใ ใ•ใ„๏ผˆ่‘—ไฝœๆจฉๆณ•ใซ้•ๅใ™ใ‚‹ใŠใใ‚Œ๏ผ‰
  • ไป–ไบบใฎไฝœๅ“ใ‚’็„กๆ–ญใงImage-to-Imageใ—ใชใ„ใงใใ ใ•ใ„๏ผˆ่‘—ไฝœๆจฉๆณ•ใซ้•ๅใ™ใ‚‹ใŠใใ‚Œ๏ผ‰
  • ใ‚ใ„ใ›ใค็‰ฉใ‚’้ ’ๅธƒใ—ใชใ„ใงใใ ใ•ใ„ (ๅˆ‘ๆณ•175ๆกใซ้•ๅใ™ใ‚‹ใŠใใ‚Œ๏ผ‰
    • ใ„ใ‚ใ‚†ใ‚‹ๆฅญ็•ŒใฎใƒžใƒŠใƒผใ‚’ๅฎˆใ‚‰ใชใ„ใ‚ˆใ†ใชใ“ใจ
  • ไบ‹ๅฎŸใซๅŸบใฅใ‹ใชใ„ใ“ใจใ‚’ไบ‹ๅฎŸใฎใ‚ˆใ†ใซ่ชžใ‚‰ใชใ„ใ‚ˆใ†ใซใ—ใฆใใ ใ•ใ„๏ผˆๅจๅŠ›ๆฅญๅ‹™ๅฆจๅฎณ็ฝชใŒ้ฉ็”จใ•ใ‚Œใ‚‹ใŠใใ‚Œ๏ผ‰
    • ใƒ•ใ‚งใ‚คใ‚ฏใƒ‹ใƒฅใƒผใ‚น

ใƒขใƒ‡ใƒซใฎ้™็•Œใ‚„ใƒใ‚คใ‚ขใ‚น

ใƒขใƒ‡ใƒซใฎ้™็•Œ

  • ใ‚ˆใใ‚ใ‹ใฃใฆใ„ใชใ„

ใƒใ‚คใ‚ขใ‚น

Stable DiffusionใจๅŒใ˜ใƒใ‚คใ‚ขใ‚นใŒๆŽ›ใ‹ใฃใฆใ„ใพใ™ใ€‚ ๆฐ—ใ‚’ใคใ‘ใฆใใ ใ•ใ„ใ€‚

ๅญฆ็ฟ’

ๅญฆ็ฟ’ใƒ‡ใƒผใ‚ฟ

ๆฌกใฎใƒ‡ใƒผใ‚ฟใ‚„ใƒขใƒ‡ใƒซใ‚’ไธปใซไฝฟใฃใฆStable Diffusionใ‚’ใƒ•ใ‚กใ‚คใƒณใƒใƒฅใƒผใƒ‹ใƒณใ‚ฐใ—ใฆใ„ใพใ™ใ€‚

  • VAEใซใคใ„ใฆ
    • Danbooruใ‚„Danbooru datasetใ‚’้™คใ„ใŸๆ—ฅๆœฌใฎๅ›ฝๅ†…ๆณ•ใ‚’้ตๅฎˆใ—ใŸใƒ‡ใƒผใ‚ฟ: 65ไธ‡็จฎ้กž ๏ผˆใƒ‡ใƒผใ‚ฟๆ‹กๅผตใซใ‚ˆใ‚Š็„ก้™ๆžšไฝœๆˆ๏ผ‰
  • U-Netใซใคใ„ใฆ
    • Danbooruใ‚„Danbooru datasetใ‚’้™คใ„ใŸๆ—ฅๆœฌใฎๅ›ฝๅ†…ๆณ•ใ‚’้ตๅฎˆใ—ใŸใƒ‡ใƒผใ‚ฟ: 200ไธ‡ใƒšใ‚ข
    • ใƒžใƒผใ‚ธใ—ใŸใƒขใƒ‡ใƒซ: 3ใค

ๅญฆ็ฟ’ใƒ—ใƒญใ‚ปใ‚น

Stable DiffusionใฎVAEใจU-Netใ‚’ใƒ•ใ‚กใ‚คใƒณใƒใƒฅใƒผใƒ‹ใƒณใ‚ฐใ—ใพใ—ใŸใ€‚

  • ใƒใƒผใƒ‰ใ‚ฆใ‚งใ‚ข: A6000
  • ใ‚ชใƒ—ใƒ†ใ‚ฃใƒžใ‚คใ‚ถใƒผ: AdamW
  • Gradient Accumulations: 1
  • ใƒใƒƒใƒใ‚ตใ‚คใ‚บ: 1

่ฉ•ไพก็ตๆžœ

็’ฐๅขƒใธใฎๅฝฑ้Ÿฟ

ใปใจใ‚“ใฉใ‚ใ‚Šใพใ›ใ‚“ใ€‚

  • ใƒใƒผใƒ‰ใ‚ฆใ‚งใ‚ขใ‚ฟใ‚คใƒ—: A6000
  • ไฝฟ็”จๆ™‚้–“๏ผˆๅ˜ไฝใฏๆ™‚้–“๏ผ‰: 200
  • ใ‚ฏใƒฉใ‚ฆใƒ‰ไบ‹ๆฅญ่€…: ใชใ—
  • ๅญฆ็ฟ’ใ—ใŸๅ ดๆ‰€: ๆ—ฅๆœฌ
  • ใ‚ซใƒผใƒœใƒณๆŽ’ๅ‡บ้‡: ใใ‚“ใชใซใชใ„

ๅ‚่€ƒๆ–‡็Œฎ

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

*ใ“ใฎใƒขใƒ‡ใƒซใ‚ซใƒผใƒ‰ใฏ Stable Diffusion v2 ใซๅŸบใฅใ„ใฆใ€Alfred IncrementใŒใ‹ใใพใ—ใŸใ€‚

Downloads last month
52
Inference Providers NEW
This model isn't deployed by any Inference Provider. ๐Ÿ™‹ Ask for provider support

Spaces using aipicasso/cool-japan-diffusion-2-1-2 100