Linly-Talker / README.md

Update README.md

dca1f25 verified over 1 year ago

14.6 kB

	# 数字人智能对话系统 - Linly-Talker — “数字人交互，与虚拟的自己互动”

	<div align="center">
	<h1>Linly-Talker WebUI</h1>


	[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange)](https://github.com/Kedreamix/Linly-Talker)

	<img src="https://github.com/Kedreamix/Linly-Talker/raw/main/docs/linly_logo.png" /><br>

	[![Open In Colab](https://img.shields.io/badge/Colab-F9AB00?style=for-the-badge&logo=googlecolab&color=525252)](https://colab.research.google.com/github/Kedreamix/Linly-Talker/blob/main/colab_webui.ipynb)
	[![Licence](https://img.shields.io/badge/LICENSE-MIT-green.svg?style=for-the-badge)](https://github.com/Kedreamix/Linly-Talker/blob/main/LICENSE)
	[![Huggingface](https://img.shields.io/badge/🤗%20-Models%20Repo-yellow.svg?style=for-the-badge)](https://huggingface.co/Kedreamix/Linly-Talker)

	[English](https://github.com/Kedreamix/Linly-Talker/blob/main/README.md) \| [中文简体](https://github.com/Kedreamix/Linly-Talker/blob/main/README_zh.md)

	</div>


	2023.12 更新 📆

	用户可以上传任意图片进行对话

	2024.01 更新 📆

	- 令人兴奋的消息！我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片，为我们的互动增添了全新的层面。
	- 更新了FastAPI的部署调用方法。
	- 更新了微软TTS的高级设置选项，增加声音种类的多样性，以及加入视频字幕加强可视化。
	- 更新了GPT多轮对话系统，使得对话有上下文联系，提高数字人的交互性和真实感。

	2024.02 更新 📆

	- 更新了Gradio的版本为最新版本4.16.0，使得界面拥有更多的功能，比如可以摄像头拍摄图片构建数字人等。
	- 更新了ASR和THG，其中ASR加入了阿里的FunASR，具体更快的速度；THG部分加入了Wav2Lip模型，ER-NeRF在准备中(Comming Soon)。
	- 加入了语音克隆方法GPT-SoVITS模型，能够通过微调一分钟对应人的语料进行克隆，效果还是相当不错的，值得推荐。
	- 集成一个WebUI界面，能够更好的运行Linly-Talker。

	2024.04 更新 📆

	- 更新了除 Edge TTS的 Paddle TTS的离线方式。
	- 更新了ER-NeRF作为Avatar生成的选择之一。
	- 更新了app_talk.py，在不基于对话场景可自由上传语音和图片视频生成。

	---

	<details>
	<summary>目录</summary>


	<!-- TOC -->

	- [数字人对话系统 - Linly-Talker —— “数字人交互，与虚拟的自己互动”](#数字人对话系统---linly-talker--数字人交互与虚拟的自己互动)
	- [介绍](#介绍)
	- [TO DO LIST](#to-do-list)
	- [示例](#示例)
	- [创建环境](#创建环境)
	- [ASR - Speech Recognition](#asr---speech-recognition)
	- [Whisper](#whisper)
	- [FunASR](#funasr)
	- [TTS - Edge TTS](#tts---edge-tts)
	- [Voice Clone](#voice-clone)
	- [GPT-SoVITS（推荐）](#gpt-sovits推荐)
	- [XTTS](#xtts)
	- [THG - Avatar](#thg---avatar)
	- [SadTalker](#sadtalker)
	- [Wav2Lip](#wav2lip)
	- [ER-NeRF（Comming Soon）](#er-nerfcomming-soon)
	- [LLM - Conversation](#llm---conversation)
	- [Linly-AI](#linly-ai)
	- [Qwen](#qwen)
	- [Gemini-Pro](#gemini-pro)
	- [LLM 多模型选择](#llm-多模型选择)
	- [优化](#优化)
	- [Gradio](#gradio)
	- [启动WebUI](#启动webui)
	- [文件夹结构](#文件夹结构)
	- [参考](#参考)
	- [Star History](#star-history)

	<!-- /TOC -->

	</details>



	## 介绍

	Linly-Talker是一款创新的数字人对话系统，它融合了最新的人工智能技术，包括大型语言模型（LLM）、自动语音识别（ASR）、文本到语音转换（TTS）和语音克隆技术。这个系统通过Gradio平台提供了一个交互式的Web界面，允许用户上传图片与AI进行个性化的对话交流。

	系统的核心特点包括：

	1. 多模型集成：Linly-Talker整合了Linly、GeminiPro、Qwen等大模型，以及Whisper、SadTalker等视觉模型，实现了高质量的对话和视觉生成。
	2. 多轮对话能力：通过GPT模型的多轮对话系统，Linly-Talker能够理解并维持上下文相关的连贯对话，极大地提升了交互的真实感。
	3. 语音克隆：利用GPT-SoVITS等技术，用户可以上传一分钟的语音样本进行微调，系统将克隆用户的声音，使得数字人能够以用户的声音进行对话。
	4. 实时互动：系统支持实时语音识别和视频字幕，使得用户可以通过语音与数字人进行自然的交流。
	5. 视觉增强：通过数字人生成等技术，Linly-Talker能够生成逼真的数字人形象，提供更加沉浸式的体验。

	Linly-Talker的设计理念是创造一种全新的人机交互方式，不仅仅是简单的问答，而是通过高度集成的技术，提供一个能够理解、响应并模拟人类交流的智能数字人。

	![The system architecture of multimodal human–computer interaction.](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/HOI.png)

	> 查看我们的介绍视频 [demo video](https://www.bilibili.com/video/BV1rN4y1a76x/)
	>
	> 在B站上我录了一系列视频，也代表我更新的每一步与使用方法，详细查看[数字人智能对话系统 - Linly-Talker合集](https://space.bilibili.com/241286257/channel/collectiondetail?sid=2065753)
	>
	> - [🔥🔥🔥数字人对话系统 Linly-Talker🔥🔥🔥](https://www.bilibili.com/video/BV1rN4y1a76x/)
	> - [🚀数字人的未来：Linly-Talker+GPT-SoVIT语音克隆技术的赋能之道](https://www.bilibili.com/video/BV1S4421A7gh/)
	> - [AutoDL平台部署Linly-Talker (0基础小白超详细教程)](https://www.bilibili.com/video/BV1uT421m74z/)
	> - [Linly-Talker 更新离线TTS集成及定制数字人方案](https://www.bilibili.com/video/BV1Mr421u7NN/)

	## TO DO LIST

	- [x] 基本完成对话系统流程，能够`语音对话`
	- [x] 加入了LLM大模型，包括`Linly`，`Qwen`和`GeminiPro`的使用
	- [x] 可上传`任意数字人照片`进行对话
	- [x] Linly加入`FastAPI`调用方式
	- [x] 利用微软`TTS`加入高级选项，可设置对应人声以及音调等参数，增加声音的多样性
	- [x] 视频生成加入`字幕`，能够更好的进行可视化
	- [x] GPT`多轮对话`系统（提高数字人的交互性和真实感，增强数字人的智能）
	- [x] 优化Gradio界面，加入更多模型，如Wav2Lip，FunASR等
	- [x] `语音克隆`技术，加入GPT-SoVITS，只需要一分钟的语音简单微调即可（语音克隆合成自己声音，提高数字人分身的真实感和互动体验）
	- [x] 加入离线TTS以及NeRF-based的方法和模型
	- [ ] `实时`语音识别（人与数字人之间就可以通过语音进行对话交流)

	🔆 该项目 Linly-Talker 正在进行中 - 欢迎提出PR请求！如果您有任何关于新的模型方法、研究、技术或发现运行错误的建议，请随时编辑并提交 PR。您也可以打开一个问题或通过电子邮件直接联系我。📩⭐ 如果您发现这个Github Project有用，请给它点个星！🤩

	> 如果在部署的时候有任何的问题，可以关注[常见问题汇总.md](https://github.com/Kedreamix/Linly-Talker/blob/main/常见问题汇总.md)部分，我已经整理了可能出现的所有问题，另外交流群也在这里，我会定时更新，感谢大家的关注与使用！！！

	###### 模型文件和权重，请浏览“模型文件”页面获取。


	接下来还需要安装对应的模型，有以下下载方式，下载后安装文件架结构放置，文件夹结构在本文最后有说明。

	- [Baidu (百度云盘)](https://pan.baidu.com/s/1eF13O-8wyw4B3MtesctQyg?pwd=linl) (Password: `linl`)
	- [huggingface](https://huggingface.co/Kedreamix/Linly-Talker)
	- [modelscope](https://www.modelscope.cn/models/Kedreamix/Linly-Talker/summary)

	HuggingFace下载

	如果速度太慢可以考虑镜像，参考[简便快捷获取 Hugging Face 模型（使用镜像站点）](https://kedreamix.github.io/2024/01/05/Note/HuggingFace/?highlight=镜像)

	```bash
	# 从huggingface下载预训练模型
	git lfs install
	git clone https://huggingface.co/Kedreamix/Linly-Talker
	```

	ModelScope下载

	```bash
	# 从modelscope下载预训练模型
	# 1. git 方法
	git lfs install
	git clone https://www.modelscope.cn/Kedreamix/Linly-Talker.git

	# 2. Python 代码下载
	pip install modelscope
	from modelscope import snapshot_download
	model_dir = snapshot_download('Kedreamix/Linly-Talker')
	```

	移动所有模型到当前目录

	如果百度网盘下载后，可以参考文档最后目录结构来移动

	```bash
	# 移动所有模型到当前目录
	# checkpoint中含有SadTalker和Wav2Lip
	mv Linly-Talker/checkpoints/* ./checkpoints

	# SadTalker的增强GFPGAN
	# pip install gfpgan
	# mv Linly-Talker/gfpan ./

	# 语音克隆模型
	mv Linly-Talker/GPT_SoVITS/pretrained_models/* ./GPT_SoVITS/pretrained_models/

	# Qwen大模型
	mv Linly-Talker/Qwen ./
	```

	为了大家的部署使用方便，更新了一个`configs.py`文件，可以对其进行一些超参数修改即可

	```bash
	# 设备运行端口 (Device running port)
	port = 7860
	# api运行端口及IP (API running port and IP)
	mode = 'api' # api 需要先运行Linly-api-fast.py，暂时仅仅适用于Linly

	# 本地端口localhost:127.0.0.1 全局端口转发:"0.0.0.0"
	ip = '127.0.0.1'
	api_port = 7871

	# L模型路径 (Linly model path)
	mode = 'offline'
	model_path = 'Qwen/Qwen-1_8B-Chat'

	# ssl证书 (SSL certificate) 麦克风对话需要此参数
	# 最好调整为绝对路径
	ssl_certfile = "./https_cert/cert.pem"
	ssl_keyfile = "./https_cert/key.pem"
	```

	## 启动WebUI

	之前我将很多个版本都是分开来的，实际上运行多个会比较麻烦，所以后续我增加了变成WebUI一个界面即可体验，后续也会不断更新

	现在已加入WebUI的功能如下

	- [x] 文本/语音数字人对话（固定数字人，分男女角色）
	- [x] 任意图片数字人对话（可上传任意数字人）
	- [x] 多轮GPT对话（加入历史对话数据，链接上下文）
	- [x] 语音克隆对话（基于GPT-SoVITS设置进行语音克隆，内置烟嗓音，可根据语音对话的声音进行克隆）

	```bash
	# WebUI
	python webui.py
	```

	![](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/WebUI.png)



	现在的启动一共有几种模式，可以选择特定的场景进行设置

	第一种只有固定了人物问答，设置好了人物，省去了预处理时间

	```bash
	python app.py
	```

	![](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/UI.png)

	最近更新了第一种模式，加入了Wav2Lip模型进行对话

	```bash
	python appv2.py
	```

	第二种是可以任意上传图片进行对话

	```bash
	python app_img.py
	```

	![](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/UI2.png)

	第三种是在第一种的基础上加入了大语言模型，加入了多轮的GPT对话

	```bash
	python app_multi.py
	```

	![](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/UI3.png)

	现在加入了语音克隆的部分，可以自由切换自己克隆的声音模型和对应的人图片进行实现，这里我选择了一个烟嗓音和男生图片

	```bash
	python app_vits.py
	```

	加入了第四种方式，不固定场景进行对话，直接输入语音或者生成语音进行数字人生成，内置了Sadtalker，Wav2Lip，ER-NeRF等方式

	> ER-NeRF是针对单独一个人的视频进行训练的，所以需要替换特定的模型才能进行渲染得到正确的结果，内置了Obama的权重，可直接用

	```bash
	python app_talk.py
	```

	![](https://github.com/Kedreamix/Linly-Talker/raw/main/docs/UI4.png)

	## 文件夹结构

	所有的权重部分可以从这下载

	- [Baidu (百度云盘)](https://pan.baidu.com/s/1eF13O-8wyw4B3MtesctQyg?pwd=linl) (Password: `linl`)
	- [huggingface](https://huggingface.co/Kedreamix/Linly-Talker)
	- [modelscope](https://www.modelscope.cn/models/Kedreamix/Linly-Talker/files) comming soon

	权重文件夹结构如下

	```bash
	Linly-Talker/
	├── checkpoints
	│ ├── hub
	│ │ └── checkpoints
	│ │ └── s3fd-619a316812.pth
	│ ├── lipsync_expert.pth
	│ ├── mapping_00109-model.pth.tar
	│ ├── mapping_00229-model.pth.tar
	│ ├── SadTalker_V0.0.2_256.safetensors
	│ ├── visual_quality_disc.pth
	│ ├── wav2lip_gan.pth
	│ └── wav2lip.pth
	├── gfpgan
	│ └── weights
	│ ├── alignment_WFLW_4HG.pth
	│ └── detection_Resnet50_Final.pth
	├── GPT_SoVITS
	│ └── pretrained_models
	│ ├── chinese-hubert-base
	│ │ ├── config.json
	│ │ ├── preprocessor_config.json
	│ │ └── pytorch_model.bin
	│ ├── chinese-roberta-wwm-ext-large
	│ │ ├── config.json
	│ │ ├── pytorch_model.bin
	│ │ └── tokenizer.json
	│ ├── README.md
	│ ├── s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt
	│ ├── s2D488k.pth
	│ ├── s2G488k.pth
	│ └── speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
	├── Qwen
	│ └── Qwen-1_8B-Chat
	│ ├── assets
	│ │ ├── logo.jpg
	│ │ ├── qwen_tokenizer.png
	│ │ ├── react_showcase_001.png
	│ │ ├── react_showcase_002.png
	│ │ └── wechat.png
	│ ├── cache_autogptq_cuda_256.cpp
	│ ├── cache_autogptq_cuda_kernel_256.cu
	│ ├── config.json
	│ ├── configuration_qwen.py
	│ ├── cpp_kernels.py
	│ ├── examples
	│ │ └── react_prompt.md
	│ ├── generation_config.json
	│ ├── LICENSE
	│ ├── model-00001-of-00002.safetensors
	│ ├── model-00002-of-00002.safetensors
	│ ├── modeling_qwen.py
	│ ├── model.safetensors.index.json
	│ ├── NOTICE
	│ ├── qwen_generation_utils.py
	│ ├── qwen.tiktoken
	│ ├── README.md
	│ ├── tokenization_qwen.py
	│ └── tokenizer_config.json
	└── README.md
	```