Succulent-VAE-128

这是一个基于 diffusers 库中 AutoencoderKL 架构训练的无条件 VAE 模型,专门用于多肉植物的图像重建与潜空间特征融合。

🌟 项目亮点

  • 完整流水线:从实地拍照、SAM 分割、DINO+UMAP 聚类到数据增强及 VAE 训练。
  • 高质量重建:在 128x128 分辨率下,通过 MSE + KL + VGG 感知损失,实现了极高的纹理还原度。
  • 有趣的融合:支持在潜空间进行插值,生成两朵多肉之间的“中间态”。

📊 训练细节

  • 训练设备:NVIDIA RTX 5090 (约 90 分钟完成 200 轮训练)
  • 数据集Succulent-Vision-Dataset (2000张经过增强的多肉图片)
  • 损失函数
    • MSE Loss (像素级还原)
    • VGG Perceptual Loss (保持多肉叶片质感)
    • KL Divergence (约束潜空间,便于特征融合)
  • 参数配置
    • Resolution: 128x128
    • Batch Size: 128
    • Latent Channels: 4

🚀 快速使用

你可以使用以下代码加载并使用该模型:

from diffusers import AutoencoderKL
import torch

# 加载模型
model_id = "HaiPenglai/Succulent-VAE-128"
vae = AutoencoderKL.from_pretrained(model_id)

# 假设你有一张 128x128 的多肉图片 tensor: x
# 编码到潜空间
# posterior = vae.encode(x).latent_dist
# z = posterior.sample()
# 从潜空间解码
# reconstruction = vae.decode(z).sample
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support