Spaces:

haoyue518
/

audio-separator

Sleeping

App Files Files Community

audio-separator / app.py

haoyue518

Upload 2 files

bcae25e verified 26 days ago

raw

history blame contribute delete

7.33 kB


	import os
	import gradio as gr
	import subprocess
	import torch
	import torchaudio
	import shutil
	import huggingface_hub
	from speechbrain.inference.separation import SepformerSeparation
	from speechbrain.inference.speaker import SpeakerRecognition

	# ==========================================
	# 0. 初始化与配置
	# ==========================================
	device = "cuda" if torch.cuda.is_available() else "cpu"
	print(f"🚀 运行硬件: {device}")

	# 强制登录 (确保能下载模型)
	try:
	token = os.environ.get("HF_TOKEN")
	if token:
	huggingface_hub.login(token=token)
	except:
	pass

	# 全局模型缓存
	sep_model = None
	spk_model = None

	def load_sep_model():
	global sep_model
	if sep_model is None:
	print("⏳ 正在加载 SpeechBrain 分离模型...")
	sep_model = SepformerSeparation.from_hparams(
	source="speechbrain/sepformer-whamr16k",
	savedir="pretrained_models/sepformer-whamr16k",
	run_opts={"device": device}
	)
	return sep_model

	def load_spk_model():
	global spk_model
	if spk_model is None:
	print("⏳ 正在加载声纹识别模型 (用于匹配样本)...")
	spk_model = SpeakerRecognition.from_hparams(
	source="speechbrain/spkrec-ecapa-voxceleb",
	savedir="pretrained_models/spkrec-ecapa-voxceleb",
	run_opts={"device": device}
	)
	return spk_model

	# ==========================================
	# 1. 第一级：Demucs 降噪 (清洗背景音)
	# ==========================================
	def stage1_denoise(audio_path):
	print("--- [阶段1] Demucs 降噪启动 ---")
	output_dir = "separated_stage1"
	if os.path.exists(output_dir):
	shutil.rmtree(output_dir)

	# 调用 Demucs 提取人声
	command = [
	"python3", "-m", "demucs.separate",
	"-n", "htdemucs",
	"--two-stems=vocals", # 只要人声
	audio_path,
	"-o", output_dir
	]
	subprocess.run(command, capture_output=True)

	# 寻找输出文件
	filename = os.path.splitext(os.path.basename(audio_path))[0]
	# 路径通常是 separated_stage1/htdemucs/文件名/vocals.wav
	# 我们需要递归查找，防止文件名被 Demucs 修改
	vocals_path = None
	for root, dirs, files in os.walk(output_dir):
	if "vocals.wav" in files:
	vocals_path = os.path.join(root, "vocals.wav")
	break

	if not vocals_path:
	raise Exception("Demucs 未能生成人声文件")

	print("✅ [阶段1] 完成：背景杂音已去除，获得纯净混合人声。")
	return vocals_path

	# ==========================================
	# 2. 第二级：SpeechBrain 双源分离
	# ==========================================
	def stage2_separate(clean_audio_path):
	print("--- [阶段2] SpeechBrain 双源分离启动 ---")
	model = load_sep_model()

	# 执行分离
	est_sources = model.separate_file(path=clean_audio_path)

	# 归一化
	est_sources = est_sources / est_sources.abs().max()

	# 提取两个源
	source1 = est_sources[:, :, 0].detach().cpu()
	source2 = est_sources[:, :, 1].detach().cpu()

	# 保存
	path1 = "temp_source1.wav"
	path2 = "temp_source2.wav"

	# 注意：SpeechBrain 此模型输出通常为 8k 或 16k，这里统一保存
	torchaudio.save(path1, source1, 16000)
	torchaudio.save(path2, source2, 16000)

	print("✅ [阶段2] 完成：混合人声已拆分为两个独立音轨。")
	return path1, path2

	# ==========================================
	# 3. 第三级：声纹比对 (找出主角)
	# ==========================================
	def stage3_identify(track1, track2, reference_path):
	if not reference_path:
	return track1, track2, "⚠️ 未提供参考样本，无法自动识别主角。展示原始分离结果。"

	print("--- [阶段3] 声纹比对启动 ---")
	model = load_spk_model()

	# 计算相似度分数的函数
	def get_score(test_file, ref_file):
	score, prediction = model.verify_files(test_file, ref_file)
	return score.item()

	try:
	score1 = get_score(track1, reference_path)
	score2 = get_score(track2, reference_path)

	print(f"🔍 相似度得分 - 音轨1: {score1:.4f} \| 音轨2: {score2:.4f}")

	# 逻辑判断：得分高的是主角
	if score1 > score2:
	return track1, track2, f"✅ 匹配成功！\n音轨1 是目标人物 (得分 {score1:.2f})\n音轨2 是干扰人声 (得分 {score2:.2f})"
	else:
	# 如果音轨2分高，我们交换一下位置，让用户总是在第一个位置听到主角
	return track2, track1, f"✅ 匹配成功！\n音轨1 是目标人物 (得分 {score2:.2f})\n音轨2 是干扰人声 (得分 {score1:.2f})"

	except Exception as e:
	print(f"❌ 声纹识别出错: {e}")
	return track1, track2, "⚠️ 声纹识别运行失败，展示原始分离结果。"

	# ==========================================
	# 主流程
	# ==========================================
	def pipeline(input_audio, ref_audio):
	status_log = ""

	if not input_audio:
	return None, None, "请上传需要处理的主音频"

	try:
	# 1. 清洗
	clean_vocals = stage1_denoise(input_audio)

	# 2. 分离
	track1, track2 = stage2_separate(clean_vocals)

	# 3. 识别 (如果用户上传了样本)
	final_target, final_noise, msg = stage3_identify(track1, track2, ref_audio)

	return final_target, final_noise, msg

	except Exception as e:
	return None, None, f"❌ 处理链中断: {str(e)}"

	# ==========================================
	# 界面
	# ==========================================
	with gr.Blocks(title="V3: 级联智能人声提取") as demo:
	gr.Markdown("## 🕵️‍♂️ V3 级联架构：Demucs 降噪 + 双源分离 + 声纹锁定")
	gr.Markdown("这是最高级的处理流程：\n1. Demucs 先把背景音乐杀掉。\n2. SpeechBrain 再把混在一起的两个人拆开。\n3. 声纹识别根据你上传的样本，自动把你想要的人挑出来。")

	with gr.Row():
	with gr.Column(scale=1):
	input_main = gr.Audio(label="1. 上传复杂的混合音频 (必须)", type="filepath")
	input_ref = gr.Audio(label="2. 上传主角的声音样本 (可选，用于自动挑选)", type="filepath")
	btn = gr.Button("🚀 启动三级火箭分离", variant="primary")

	with gr.Column(scale=1):
	log_box = gr.Textbox(label="分析报告", value="等待任务...")
	out_target = gr.Audio(label="🎉 结果：目标主角 (Target)", type="filepath")
	out_noise = gr.Audio(label="🗑️ 结果：被剔除的干扰人声/杂音", type="filepath")

	btn.click(fn=pipeline, inputs=[input_main, input_ref], outputs=[out_target, out_noise, log_box])

	if __name__ == "__main__":
	demo.launch()