音色设计产生的音频再次用于复刻时的问题

#10

by eldzwdkl - opened Apr 17

•

您好，我将音色设计产生的音频用于声音克隆时，会出现kv_cache持续累积“误差”使得后面的音频出现越来越大的“嗡嗡”的声音。
我不是专业做这个的，但我非常想快速解决这个问题，于是我用了可能有隐患的临时方法。
请问这个“嗡嗡”的声音是什么？是因为合成的声音和真人声音有差异，所以造成音质下降的情形吗？
请问这个的标准解决方法应该是什么？

我的临时解决方法是：
回看 1 步方法（干净特征传递）：

句子1: 原始cache → wav_1 + clean_feat_1 （1次推理）
句子2:
Pass 1: 原始cache → clean_feat_2 （干净特征，音频丢弃）
Pass 2: 原始cache + clean_feat_1 → wav_2 （实际输出）
句子3:
Pass 1: 原始cache → clean_feat_3 （干净特征，音频丢弃）
Pass 2: 原始cache + clean_feat_2 → wav_3 （实际输出）
拼接

这个方法能有效的在“使用合成的声音进行克隆”时，提高音频的品质。

richshan

25 days ago

和您一样的问题

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment