AI-Media-Studio / README.md
mkhou00000's picture
Update README with project metadata
58be321 unverified

A newer version of the Gradio SDK is available: 6.14.0

Upgrade
metadata
title: AI Media Studio
emoji: 🎬
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: 5.0.1
app_file: webui/app.py
pinned: true
license: mit
short_description: 极客基地 AI全球超级站点 - 一站式AI多媒体创作平台

🚀 AI Media Studio

极客基地 AI全球超级站点

一站式AI多媒体创作平台 | All-in-One AI Multimedia Creation Platform

Python License Docker API WebUI

English | 中文


中文

📖 简介

AI Media Studio 是一个功能强大的AI多媒体创作平台,集成了业界最顶尖的开源AI模型,提供图像生成、视频生成、音频生成、图片编辑、视频处理等全方位功能。

本项目致力于打造极客基地 AI全球超级站点,让每个人都能轻松使用最先进的AI技术进行创作。

✨ 核心特性

功能 描述 状态
🌐 Web界面 Gradio驱动的用户友好界面
🔌 REST API FastAPI异步API服务
🐳 Docker部署 一键部署,GPU/CPU支持
📦 模型管理 下载、缓存、版本管理
批量处理 并行处理,任务队列

🎨 AI图像生成

支持 10+ 个顶级模型

模型 ID 说明
Stable Diffusion 1.5 sd-1.5 经典SD模型
Stable Diffusion 2.1 sd-2.1 改进版SD
Stable Diffusion XL sdxl 高质量1024px
SDXL Turbo sdxl-turbo 快速生成
Stable Diffusion 3 sd3 最新SD3
Stable Diffusion 3.5 sd3.5 SD3.5
FLUX Schnell flux-schnell 快速高质量
FLUX Dev flux-dev 开发版
Playground v2.5 playground-v2.5 美学优化
Kandinsky 3 kandinsky-3 俄罗斯模型

功能:文生图、图生图、局部重绘、提示词增强、风格预设

🎬 AI视频生成

支持 9+ 个视频模型

模型 ID 说明
AnimateDiff animatediff 动画生成
AnimateDiff v3 animatediff-v3 改进版
SVD svd 图生视频
SVD-XT svd-xt 更长视频
CogVideoX 2B cogvideox-2b 文生视频
CogVideoX 5B cogvideox-5b 高质量
万象视频 wan-video 14B参数
LTX Video ltx-video Lightricks
Mochi 1 mochi-1 Genmo

功能:文生视频、图生视频、运动控制

🎵 AI音频生成

功能 模型 说明
文本转语音 Bark 支持中英日韩德法6种语言
音乐生成 MusicGen 多种风格音乐
音效生成 AudioLDM2 环境音效
语音识别 Whisper 多语言转录

🏗️ 项目架构

AI-Media-Studio/
├── 🌐 webui/              # Gradio Web界面
│   └── app.py             # 主应用
├── 🔌 api/                # FastAPI REST API
│   └── main.py            # API服务
├── 🎨 ai_generation/      # AI生成模块
│   ├── image_gen/         # 图像生成 (Fooocus)
│   ├── video_gen/         # 视频生成 (AnimateDiff)
│   └── audio_gen/         # 音频生成 (Bark/MusicGen)
├── 🎬 video_processing/   # 视频处理 (MoviePy)
├── 🖼️ image_editing/      # 图片编辑 (IOPaint)
├── 🤖 ai_models/          # AI模型集成
├── ⚙️ core/               # 核心模块
│   ├── model_manager.py   # 模型管理
│   └── batch_processor.py # 批量处理
├── 🐳 docker/             # Docker配置
│   └── entrypoint.sh      # 启动脚本
├── 📚 examples/           # 使用示例
├── Dockerfile             # GPU版镜像
├── Dockerfile.cpu         # CPU版镜像
├── docker-compose.yml     # 编排配置
└── requirements.txt       # 依赖列表

🚀 快速开始

方式一:Docker部署 (推荐)

# 克隆仓库
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio

# GPU版本
docker-compose up -d

# CPU版本
docker-compose -f docker-compose.cpu.yml up -d

# 访问服务
# WebUI: http://localhost:7860
# API:   http://localhost:8000
# Docs:  http://localhost:8000/docs

方式二:本地安装

# 克隆仓库
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio

# 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate   # Windows

# 安装依赖
pip install -r requirements.txt

# 启动WebUI
python -m webui.app

# 或启动API服务
uvicorn api.main:app --host 0.0.0.0 --port 8000

📚 使用示例

Python API

# 图像生成
from ai_generation import generate_image, PromptEnhancer

prompt = PromptEnhancer.enhance_prompt("a cat", style="cinematic")
image = generate_image(prompt, model="sdxl", width=1024, height=1024)
image.save("output.png")

# 视频生成
from ai_generation import generate_video

frames = generate_video(
    "a cat walking in the garden",
    model="animatediff",
    num_frames=16,
    fps=8,
)

# 音频生成
from ai_generation import text_to_speech, generate_music

audio = text_to_speech("你好,世界!", voice="zh_female")
music = generate_music("upbeat electronic dance music", duration=30)

REST API

# 生成图像
curl -X POST "http://localhost:8000/api/v1/image/generate" \
  -H "Content-Type: application/json" \
  -d '{"prompt": "a beautiful sunset", "model": "sdxl"}'

# 生成视频
curl -X POST "http://localhost:8000/api/v1/video/generate" \
  -H "Content-Type: application/json" \
  -d '{"prompt": "a cat walking", "model": "animatediff"}'

# 文本转语音
curl -X POST "http://localhost:8000/api/v1/audio/tts" \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello World", "voice": "en_female"}'

批量处理

from core import batch_generate_images, batch_generate_tts

# 批量生成图像
prompts = ["a sunset", "a mountain", "a city"]
job = batch_generate_images(prompts, model="sdxl", parallel=True)
print(f"完成: {job.completed_tasks}/{job.total_tasks}")

# 批量TTS
texts = ["第一段", "第二段", "第三段"]
job = batch_generate_tts(texts, voice="zh_female")

模型管理

from core import ModelManager

manager = ModelManager()

# 列出模型
models = manager.list_models(model_type="image")

# 下载模型
manager.download_model("sdxl")

# GPU状态
gpu_info = manager.get_gpu_info()
print(f"显存: {gpu_info['devices'][0]['memory_free_gb']} GB 可用")

🔥 集成的顶级开源项目

项目 星标 功能
Fooocus ⭐ 47K+ AI图像生成
MoneyPrinterTurbo ⭐ 48K+ AI视频生成
Diffusers ⭐ 32K+ 扩散模型库
IOPaint ⭐ 22K+ AI图像修复
AnimateDiff ⭐ 10K+ 动画生成
MoviePy ⭐ 14K+ 视频编辑

📊 系统要求

组件 最低要求 推荐配置
CPU 4核 8核+
内存 16GB 32GB+
GPU GTX 1060 6GB RTX 3090 24GB+
存储 50GB 200GB+ SSD
Python 3.10+ 3.11

🤝 贡献

欢迎贡献代码!请查看 CONTRIBUTING.md 了解详情。

📄 许可证

本项目采用 MIT License 开源协议。


English

📖 Introduction

AI Media Studio is a powerful AI multimedia creation platform that integrates the industry's top open-source AI models, providing comprehensive features including image generation, video generation, audio generation, image editing, and video processing.

✨ Key Features

  • AI Image Generation: SD 1.5/2.1/XL/3, FLUX, Playground
  • AI Video Generation: AnimateDiff, SVD, CogVideoX
  • AI Audio Generation: Bark TTS, MusicGen, Whisper
  • Web Interface: Gradio-based user-friendly UI
  • REST API: FastAPI with async support
  • Docker Ready: One-click deployment
  • Model Management: Download, cache, and manage models
  • Batch Processing: Process multiple items in parallel

🚀 Quick Start

# Clone
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio

# Docker (Recommended)
docker-compose up -d

# Access
# WebUI: http://localhost:7860
# API:   http://localhost:8000

⭐ Star this repo if you find it useful!

Made with ❤️ by yiyang-8

极客基地 AI全球超级站点