Spaces:
Runtime error
Runtime error
A newer version of the Gradio SDK is available: 6.14.0
metadata
title: AI Media Studio
emoji: 🎬
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: 5.0.1
app_file: webui/app.py
pinned: true
license: mit
short_description: 极客基地 AI全球超级站点 - 一站式AI多媒体创作平台
中文
📖 简介
AI Media Studio 是一个功能强大的AI多媒体创作平台,集成了业界最顶尖的开源AI模型,提供图像生成、视频生成、音频生成、图片编辑、视频处理等全方位功能。
本项目致力于打造极客基地 AI全球超级站点,让每个人都能轻松使用最先进的AI技术进行创作。
✨ 核心特性
| 功能 | 描述 | 状态 |
|---|---|---|
| 🌐 Web界面 | Gradio驱动的用户友好界面 | ✅ |
| 🔌 REST API | FastAPI异步API服务 | ✅ |
| 🐳 Docker部署 | 一键部署,GPU/CPU支持 | ✅ |
| 📦 模型管理 | 下载、缓存、版本管理 | ✅ |
| ⚡ 批量处理 | 并行处理,任务队列 | ✅ |
🎨 AI图像生成
支持 10+ 个顶级模型:
| 模型 | ID | 说明 |
|---|---|---|
| Stable Diffusion 1.5 | sd-1.5 |
经典SD模型 |
| Stable Diffusion 2.1 | sd-2.1 |
改进版SD |
| Stable Diffusion XL | sdxl |
高质量1024px |
| SDXL Turbo | sdxl-turbo |
快速生成 |
| Stable Diffusion 3 | sd3 |
最新SD3 |
| Stable Diffusion 3.5 | sd3.5 |
SD3.5 |
| FLUX Schnell | flux-schnell |
快速高质量 |
| FLUX Dev | flux-dev |
开发版 |
| Playground v2.5 | playground-v2.5 |
美学优化 |
| Kandinsky 3 | kandinsky-3 |
俄罗斯模型 |
功能:文生图、图生图、局部重绘、提示词增强、风格预设
🎬 AI视频生成
支持 9+ 个视频模型:
| 模型 | ID | 说明 |
|---|---|---|
| AnimateDiff | animatediff |
动画生成 |
| AnimateDiff v3 | animatediff-v3 |
改进版 |
| SVD | svd |
图生视频 |
| SVD-XT | svd-xt |
更长视频 |
| CogVideoX 2B | cogvideox-2b |
文生视频 |
| CogVideoX 5B | cogvideox-5b |
高质量 |
| 万象视频 | wan-video |
14B参数 |
| LTX Video | ltx-video |
Lightricks |
| Mochi 1 | mochi-1 |
Genmo |
功能:文生视频、图生视频、运动控制
🎵 AI音频生成
| 功能 | 模型 | 说明 |
|---|---|---|
| 文本转语音 | Bark | 支持中英日韩德法6种语言 |
| 音乐生成 | MusicGen | 多种风格音乐 |
| 音效生成 | AudioLDM2 | 环境音效 |
| 语音识别 | Whisper | 多语言转录 |
🏗️ 项目架构
AI-Media-Studio/
├── 🌐 webui/ # Gradio Web界面
│ └── app.py # 主应用
├── 🔌 api/ # FastAPI REST API
│ └── main.py # API服务
├── 🎨 ai_generation/ # AI生成模块
│ ├── image_gen/ # 图像生成 (Fooocus)
│ ├── video_gen/ # 视频生成 (AnimateDiff)
│ └── audio_gen/ # 音频生成 (Bark/MusicGen)
├── 🎬 video_processing/ # 视频处理 (MoviePy)
├── 🖼️ image_editing/ # 图片编辑 (IOPaint)
├── 🤖 ai_models/ # AI模型集成
├── ⚙️ core/ # 核心模块
│ ├── model_manager.py # 模型管理
│ └── batch_processor.py # 批量处理
├── 🐳 docker/ # Docker配置
│ └── entrypoint.sh # 启动脚本
├── 📚 examples/ # 使用示例
├── Dockerfile # GPU版镜像
├── Dockerfile.cpu # CPU版镜像
├── docker-compose.yml # 编排配置
└── requirements.txt # 依赖列表
🚀 快速开始
方式一:Docker部署 (推荐)
# 克隆仓库
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio
# GPU版本
docker-compose up -d
# CPU版本
docker-compose -f docker-compose.cpu.yml up -d
# 访问服务
# WebUI: http://localhost:7860
# API: http://localhost:8000
# Docs: http://localhost:8000/docs
方式二:本地安装
# 克隆仓库
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio
# 创建虚拟环境
python -m venv venv
source venv/bin/activate # Linux/Mac
# venv\Scripts\activate # Windows
# 安装依赖
pip install -r requirements.txt
# 启动WebUI
python -m webui.app
# 或启动API服务
uvicorn api.main:app --host 0.0.0.0 --port 8000
📚 使用示例
Python API
# 图像生成
from ai_generation import generate_image, PromptEnhancer
prompt = PromptEnhancer.enhance_prompt("a cat", style="cinematic")
image = generate_image(prompt, model="sdxl", width=1024, height=1024)
image.save("output.png")
# 视频生成
from ai_generation import generate_video
frames = generate_video(
"a cat walking in the garden",
model="animatediff",
num_frames=16,
fps=8,
)
# 音频生成
from ai_generation import text_to_speech, generate_music
audio = text_to_speech("你好,世界!", voice="zh_female")
music = generate_music("upbeat electronic dance music", duration=30)
REST API
# 生成图像
curl -X POST "http://localhost:8000/api/v1/image/generate" \
-H "Content-Type: application/json" \
-d '{"prompt": "a beautiful sunset", "model": "sdxl"}'
# 生成视频
curl -X POST "http://localhost:8000/api/v1/video/generate" \
-H "Content-Type: application/json" \
-d '{"prompt": "a cat walking", "model": "animatediff"}'
# 文本转语音
curl -X POST "http://localhost:8000/api/v1/audio/tts" \
-H "Content-Type: application/json" \
-d '{"text": "Hello World", "voice": "en_female"}'
批量处理
from core import batch_generate_images, batch_generate_tts
# 批量生成图像
prompts = ["a sunset", "a mountain", "a city"]
job = batch_generate_images(prompts, model="sdxl", parallel=True)
print(f"完成: {job.completed_tasks}/{job.total_tasks}")
# 批量TTS
texts = ["第一段", "第二段", "第三段"]
job = batch_generate_tts(texts, voice="zh_female")
模型管理
from core import ModelManager
manager = ModelManager()
# 列出模型
models = manager.list_models(model_type="image")
# 下载模型
manager.download_model("sdxl")
# GPU状态
gpu_info = manager.get_gpu_info()
print(f"显存: {gpu_info['devices'][0]['memory_free_gb']} GB 可用")
🔥 集成的顶级开源项目
| 项目 | 星标 | 功能 |
|---|---|---|
| Fooocus | ⭐ 47K+ | AI图像生成 |
| MoneyPrinterTurbo | ⭐ 48K+ | AI视频生成 |
| Diffusers | ⭐ 32K+ | 扩散模型库 |
| IOPaint | ⭐ 22K+ | AI图像修复 |
| AnimateDiff | ⭐ 10K+ | 动画生成 |
| MoviePy | ⭐ 14K+ | 视频编辑 |
📊 系统要求
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| CPU | 4核 | 8核+ |
| 内存 | 16GB | 32GB+ |
| GPU | GTX 1060 6GB | RTX 3090 24GB+ |
| 存储 | 50GB | 200GB+ SSD |
| Python | 3.10+ | 3.11 |
🤝 贡献
欢迎贡献代码!请查看 CONTRIBUTING.md 了解详情。
📄 许可证
本项目采用 MIT License 开源协议。
English
📖 Introduction
AI Media Studio is a powerful AI multimedia creation platform that integrates the industry's top open-source AI models, providing comprehensive features including image generation, video generation, audio generation, image editing, and video processing.
✨ Key Features
- AI Image Generation: SD 1.5/2.1/XL/3, FLUX, Playground
- AI Video Generation: AnimateDiff, SVD, CogVideoX
- AI Audio Generation: Bark TTS, MusicGen, Whisper
- Web Interface: Gradio-based user-friendly UI
- REST API: FastAPI with async support
- Docker Ready: One-click deployment
- Model Management: Download, cache, and manage models
- Batch Processing: Process multiple items in parallel
🚀 Quick Start
# Clone
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio
# Docker (Recommended)
docker-compose up -d
# Access
# WebUI: http://localhost:7860
# API: http://localhost:8000