File size: 3,245 Bytes

00ef041
 
66839c6
 
4817359
ca3a941
 
 
00ef041
b015923
bd22703
e03f9f2
ca3a941
e03f9f2
fcd4d3b
fe7478b
27d16d1
3633fee
ca3a941
e896b5f
e03f9f2
ca3a941
 
e03f9f2
ca3a941
574cb82
7b003e5
d0b355b
7b003e5
e03f9f2
0067149
e03f9f2
8ea96ad
68351f6
8ea96ad
 
 
 
 
 
0067149
bc5331c
dc298ee
 
 
bc5331c
 
e03f9f2
 
 
574cb82
ca7dc28
 
 
 
 
0b76d3a
e03f9f2
1c2ca64
ffe7577
e03f9f2
 
0067149
05869a3
a570323
55d7888
7291d41
21866f6
5fa94cf
 
 
7291d41
21866f6
7291d41
83abc3f
 
 
05869a3
a570323
 
 
 
7eb60c3
 
05869a3
574cb82
05869a3
a570323
 
 
 
 
05869a3
a570323
 
9721ef3

---
license: apache-2.0
private: false  # Public이지만
unlisted: true  # 검색에 안 나타남
thumbnail: https://huggingface.co/mamadat/SHREK_ENM/resolve/main/SHREK_ENM.png
tags:
- diffusion
- text-to-image
---
![SHREK ENM Model](SHREK_ENM.png)
# SHREK_ENM Diffusion Model v0.1

## Model Details

- **슈렉 캐릭터 생성에 특화된 diffusion model**
- **전체 가중치 재학습, 모델 아키텍처는 Flux Krea 사용**
- **Developed:** Jihun.Hong
- **Datasets:** Seungwoo.Kim, Jiyeon Lee
- **Model type:** Text-to-Image Diffusion Model
- **Base Model architecture:** Flux.1_Krea_dev
- **Training approach:** Full weight fine-tuning (Complete Retraining)
- **Release date:** September 19, 2025
- **Version:** v0.1

### Model Sources
- **Demo[coming soon]:** End to End with Bytedance Waver 1.0, GIF Sample Below
<div align="center">
  <img src="./SHREK_ENM_Video.gif" alt="SHREK Animation">
</div>

## Training Details

### Training Results
**[모델 3개 비교]** 좌측부터 3가지 Epoch(2차학습 각각 4시간, 8시간, 12시간)에 따른 변화를 보여줍니다. 테스트 과정으로 30 Epoch 학습만 진행했으며, 프로덕션 레벨을 위해서는 약 40시간의 추가 학습이 필요합니다.

<div align="center">
  <img src="./training_progress.png" alt="Training Progress and Epoch Comparison" width="100%">
  <p><em>Epoch별 모델 발전 과정, 샘플 출력 및 성능 지표</em></p>
</div>

### Training Data

<div align="center">
  <img src="./Dataset.png" alt="SHREK Animation">
</div>

- **데이터셋:** 커스텀 SHREK 데이터셋
- **데이터셋 크기:** augmentation 포함 2.4GB, 820장, 1024×1024, Shrek 얼굴 기준 SAM2 Segment, Yolo CROP
- **데이터 전처리:** Image augmentation, 1024×1024 리사이징, face detection 기반 크롭핑(Yolo, SAM2 기반)

### Training Configuration

<div align="center">
  <img src="./Train.png" alt="SHREK Animation">
</div>

- **하드웨어:** NVIDIA L40S GPU
- **학습 시간:** PR: 30시간 02분, SC: 12시간 11분, Total: 42시간 13분
- **Batch size:** 7
- **Learning rate:** 2e-06, 4e-06, 6e-06
- **Training steps:** 256 × 40 / 7 = 1480 스텝

## Usage

### 다양한 UI 애플리케이션 호환
이 모델은 **ComfyUI, SwarmUI, Forge, Automatic1111 등** AI UI 애플리케이션에서 원활하게 작동합니다.

**ComfyUI**
<div align="center">
  <img src="./ComfyUI_Workflow.png" alt="SHREK Animation">
</div>

**SwarmUI**

<div align="center">
  <img src="./SwarmUI.png" alt="SHREK Animation">
</div>

#### 설치 단계
1. **모델 파일 다운로드:**
   - `SHREK_ENM.safetensors` - 메인 모델 파일
   - `ae.safetensors` - VAE 모델
   - `clip_l.safetensors` - CLIP text encoder
   - `t5xxl_enconly.safetensors` - T5 text encoder

2. **올바른 디렉토리에 파일 배치**

3. **ComfyUI에서 로드:**
   - 각 구성 요소에 적합한 loader node 사용
   - workflow에 따라 node 연결
   - "Load Diffusion Model" node를 사용하여 `SHREK_ENM.safetensors` 로드
   - 해당 loader node를 사용하여 text encoder와 VAE 로드

#### 권장 설정
- **CFG Scale:** 1.0 (이 값을 유지하는 것을 강력히 권장)
- **Sampling Steps:** 35-45
- **Sampler:** iPNDM 또는 Euler a