Spaces:

mkhou00000
/

AI-Media-Studio

Runtime error

App Files Files Community

AI-Media-Studio / README.md

mkhou00000

Update README with project metadata

58be321 unverified 4 months ago

preview code

raw

history blame contribute delete

9.44 kB

A newer version of the Gradio SDK is available: 6.14.0

Upgrade

metadata

title: AI Media Studio
emoji: 🎬
colorFrom: purple
colorTo: indigo
sdk: gradio
sdk_version: 5.0.1
app_file: webui/app.py
pinned: true
license: mit
short_description: 极客基地 AI全球超级站点 - 一站式AI多媒体创作平台

🚀 AI Media Studio

极客基地 AI全球超级站点

一站式AI多媒体创作平台 | All-in-One AI Multimedia Creation Platform

English | 中文

中文

📖 简介

AI Media Studio 是一个功能强大的AI多媒体创作平台，集成了业界最顶尖的开源AI模型，提供图像生成、视频生成、音频生成、图片编辑、视频处理等全方位功能。

本项目致力于打造极客基地 AI全球超级站点，让每个人都能轻松使用最先进的AI技术进行创作。

✨ 核心特性

功能	描述	状态
🌐 Web界面	Gradio驱动的用户友好界面	✅
🔌 REST API	FastAPI异步API服务	✅
🐳 Docker部署	一键部署，GPU/CPU支持	✅
📦 模型管理	下载、缓存、版本管理	✅
⚡ 批量处理	并行处理，任务队列	✅

🎨 AI图像生成

支持 10+ 个顶级模型：

模型	ID	说明
Stable Diffusion 1.5	`sd-1.5`	经典SD模型
Stable Diffusion 2.1	`sd-2.1`	改进版SD
Stable Diffusion XL	`sdxl`	高质量1024px
SDXL Turbo	`sdxl-turbo`	快速生成
Stable Diffusion 3	`sd3`	最新SD3
Stable Diffusion 3.5	`sd3.5`	SD3.5
FLUX Schnell	`flux-schnell`	快速高质量
FLUX Dev	`flux-dev`	开发版
Playground v2.5	`playground-v2.5`	美学优化
Kandinsky 3	`kandinsky-3`	俄罗斯模型

功能：文生图、图生图、局部重绘、提示词增强、风格预设

🎬 AI视频生成

支持 9+ 个视频模型：

模型	ID	说明
AnimateDiff	`animatediff`	动画生成
AnimateDiff v3	`animatediff-v3`	改进版
SVD	`svd`	图生视频
SVD-XT	`svd-xt`	更长视频
CogVideoX 2B	`cogvideox-2b`	文生视频
CogVideoX 5B	`cogvideox-5b`	高质量
万象视频	`wan-video`	14B参数
LTX Video	`ltx-video`	Lightricks
Mochi 1	`mochi-1`	Genmo

功能：文生视频、图生视频、运动控制

🎵 AI音频生成

功能	模型	说明
文本转语音	Bark	支持中英日韩德法6种语言
音乐生成	MusicGen	多种风格音乐
音效生成	AudioLDM2	环境音效
语音识别	Whisper	多语言转录

🏗️ 项目架构

AI-Media-Studio/
├── 🌐 webui/              # Gradio Web界面
│   └── app.py             # 主应用
├── 🔌 api/                # FastAPI REST API
│   └── main.py            # API服务
├── 🎨 ai_generation/      # AI生成模块
│   ├── image_gen/         # 图像生成 (Fooocus)
│   ├── video_gen/         # 视频生成 (AnimateDiff)
│   └── audio_gen/         # 音频生成 (Bark/MusicGen)
├── 🎬 video_processing/   # 视频处理 (MoviePy)
├── 🖼️ image_editing/      # 图片编辑 (IOPaint)
├── 🤖 ai_models/          # AI模型集成
├── ⚙️ core/               # 核心模块
│   ├── model_manager.py   # 模型管理
│   └── batch_processor.py # 批量处理
├── 🐳 docker/             # Docker配置
│   └── entrypoint.sh      # 启动脚本
├── 📚 examples/           # 使用示例
├── Dockerfile             # GPU版镜像
├── Dockerfile.cpu         # CPU版镜像
├── docker-compose.yml     # 编排配置
└── requirements.txt       # 依赖列表

🚀 快速开始

方式一：Docker部署 (推荐)

# 克隆仓库
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio

# GPU版本
docker-compose up -d

# CPU版本
docker-compose -f docker-compose.cpu.yml up -d

# 访问服务
# WebUI: http://localhost:7860
# API:   http://localhost:8000
# Docs:  http://localhost:8000/docs

方式二：本地安装

# 克隆仓库
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio

# 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate   # Windows

# 安装依赖
pip install -r requirements.txt

# 启动WebUI
python -m webui.app

# 或启动API服务
uvicorn api.main:app --host 0.0.0.0 --port 8000

📚 使用示例

Python API

# 图像生成
from ai_generation import generate_image, PromptEnhancer

prompt = PromptEnhancer.enhance_prompt("a cat", style="cinematic")
image = generate_image(prompt, model="sdxl", width=1024, height=1024)
image.save("output.png")

# 视频生成
from ai_generation import generate_video

frames = generate_video(
    "a cat walking in the garden",
    model="animatediff",
    num_frames=16,
    fps=8,
)

# 音频生成
from ai_generation import text_to_speech, generate_music

audio = text_to_speech("你好，世界！", voice="zh_female")
music = generate_music("upbeat electronic dance music", duration=30)

REST API

# 生成图像
curl -X POST "http://localhost:8000/api/v1/image/generate" \
  -H "Content-Type: application/json" \
  -d '{"prompt": "a beautiful sunset", "model": "sdxl"}'

# 生成视频
curl -X POST "http://localhost:8000/api/v1/video/generate" \
  -H "Content-Type: application/json" \
  -d '{"prompt": "a cat walking", "model": "animatediff"}'

# 文本转语音
curl -X POST "http://localhost:8000/api/v1/audio/tts" \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello World", "voice": "en_female"}'

批量处理

from core import batch_generate_images, batch_generate_tts

# 批量生成图像
prompts = ["a sunset", "a mountain", "a city"]
job = batch_generate_images(prompts, model="sdxl", parallel=True)
print(f"完成: {job.completed_tasks}/{job.total_tasks}")

# 批量TTS
texts = ["第一段", "第二段", "第三段"]
job = batch_generate_tts(texts, voice="zh_female")

模型管理

from core import ModelManager

manager = ModelManager()

# 列出模型
models = manager.list_models(model_type="image")

# 下载模型
manager.download_model("sdxl")

# GPU状态
gpu_info = manager.get_gpu_info()
print(f"显存: {gpu_info['devices'][0]['memory_free_gb']} GB 可用")

🔥 集成的顶级开源项目

项目	星标	功能
Fooocus	⭐ 47K+	AI图像生成
MoneyPrinterTurbo	⭐ 48K+	AI视频生成
Diffusers	⭐ 32K+	扩散模型库
IOPaint	⭐ 22K+	AI图像修复
AnimateDiff	⭐ 10K+	动画生成
MoviePy	⭐ 14K+	视频编辑

📊 系统要求

组件	最低要求	推荐配置
CPU	4核	8核+
内存	16GB	32GB+
GPU	GTX 1060 6GB	RTX 3090 24GB+
存储	50GB	200GB+ SSD
Python	3.10+	3.11

🤝 贡献

欢迎贡献代码！请查看 CONTRIBUTING.md 了解详情。

📄 许可证

本项目采用 MIT License 开源协议。

English

📖 Introduction

AI Media Studio is a powerful AI multimedia creation platform that integrates the industry's top open-source AI models, providing comprehensive features including image generation, video generation, audio generation, image editing, and video processing.

✨ Key Features

AI Image Generation: SD 1.5/2.1/XL/3, FLUX, Playground
AI Video Generation: AnimateDiff, SVD, CogVideoX
AI Audio Generation: Bark TTS, MusicGen, Whisper
Web Interface: Gradio-based user-friendly UI
REST API: FastAPI with async support
Docker Ready: One-click deployment
Model Management: Download, cache, and manage models
Batch Processing: Process multiple items in parallel

🚀 Quick Start

# Clone
git clone https://github.com/yiyang-8/AI-Media-Studio.git
cd AI-Media-Studio

# Docker (Recommended)
docker-compose up -d

# Access
# WebUI: http://localhost:7860
# API:   http://localhost:8000

⭐ Star this repo if you find it useful!

Made with ❤️ by yiyang-8

极客基地 AI全球超级站点