Spaces:

ranggapr2000
/

rvc_api

Sleeping

App Files Files Community

rvc_api / modules /tabs /merge.py

aryo100

first commit

b5a064f 3 months ago

raw

history blame contribute delete

14.2 kB

	import json
	import os
	from typing import *

	import gradio as gr
	import torch

	from modules import models
	from modules.merge import merge
	from modules.tabs.inference import inference_options_ui
	from modules.ui import Tab

	MERGE_METHODS = {
	"weight_sum": "Weight sum:A(1-alpha)+Balpha",
	"add_diff": "Add difference:A+(B-C)*alpha",
	}


	class Merge(Tab):
	def title(self):
	return "Merge"

	def sort(self):
	return 3

	def ui(self, outlet):
	def merge_ckpt(model_a, model_b, model_c, weight_text, alpha, each_key, method):
	model_a = model_a if type(model_a) != list and model_a != "" else None
	model_b = model_b if type(model_b) != list and model_b != "" else None
	model_c = model_c if type(model_c) != list and model_c != "" else None

	if each_key:
	weights = json.loads(weight_text)
	else:
	weights = {}

	method = [k for k, v in MERGE_METHODS.items() if v == method][0]
	return merge(
	os.path.join(models.MODELS_DIR, "checkpoints", model_a),
	os.path.join(models.MODELS_DIR, "checkpoints", model_b),
	os.path.join(models.MODELS_DIR, "checkpoints", model_c)
	if model_c
	else None,
	alpha,
	weights,
	method,
	)

	def merge_and_save(
	model_a, model_b, model_c, alpha, each_key, weight_text, method, out_name
	):
	print(each_key)
	out_path = os.path.join(models.MODELS_DIR, "checkpoints", out_name)
	if os.path.exists(out_path):
	return "Model name already exists."
	merged = merge_ckpt(
	model_a, model_b, model_c, weight_text, alpha, each_key, method
	)
	if not out_name.endswith(".pth"):
	out_name += ".pth"
	torch.save(merged, os.path.join(models.MODELS_DIR, "checkpoints", out_name))
	return "Success"

	def merge_and_gen(
	model_a,
	model_b,
	model_c,
	alpha,
	each_key,
	weight_text,
	method,
	speaker_id,
	source_audio,
	embedder_name,
	embedding_output_layer,
	transpose,
	fo_curve_file,
	pitch_extraction_algo,
	auto_load_index,
	faiss_index_file,
	retrieval_feature_ratio,
	):
	merged = merge_ckpt(
	model_a, model_b, model_c, weight_text, alpha, each_key, method
	)
	model = models.VoiceConvertModel("merge", merged)
	audio = model.single(
	speaker_id,
	source_audio,
	embedder_name,
	embedding_output_layer,
	transpose,
	fo_curve_file,
	pitch_extraction_algo,
	auto_load_index,
	faiss_index_file,
	retrieval_feature_ratio,
	)
	tgt_sr = model.tgt_sr
	del merged
	del model
	torch.cuda.empty_cache()
	return "Success", (tgt_sr, audio)

	def reload_model():
	model_list = models.get_models()
	return (
	gr.Dropdown.update(choices=model_list),
	gr.Dropdown.update(choices=model_list),
	gr.Dropdown.update(choices=model_list),
	)

	def update_speaker_ids(model):
	if model == "":
	return gr.Slider.update(
	maximum=0,
	visible=False,
	)
	model = torch.load(
	os.path.join(models.MODELS_DIR, "checkpoints", model),
	map_location="cpu",
	)
	vc_model = models.VoiceConvertModel("merge", model)
	max = vc_model.n_spk
	del model
	del vc_model
	return gr.Slider.update(
	maximum=max,
	visible=True,
	)

	with gr.Group():
	with gr.Column():
	with gr.Row(equal_height=False):
	model_a = gr.Dropdown(choices=models.get_models(), label="Model A")
	model_b = gr.Dropdown(choices=models.get_models(), label="Model B")
	model_c = gr.Dropdown(choices=models.get_models(), label="Model C")
	reload_model_button = gr.Button("♻️")
	reload_model_button.click(
	reload_model, outputs=[model_a, model_b, model_c]
	)
	with gr.Row(equal_height=False):
	method = gr.Radio(
	label="Merge method",
	choices=list(MERGE_METHODS.values()),
	value="Weight sum:A(1-alpha)+Balpha",
	)
	output_name = gr.Textbox(label="Output name")
	each_key = gr.Checkbox(label="Each key merge")
	with gr.Row(equal_height=False):
	base_alpha = gr.Slider(
	label="Base alpha", minimum=0, maximum=1, value=0.5, step=0.01
	)

	default_weights = {}
	weights = {}

	def create_weight_ui(name: str, *keys_list: List[List[str]]):
	with gr.Accordion(label=name, open=False):
	with gr.Row(equal_height=False):
	for keys in keys_list:
	with gr.Column():
	for key in keys:
	default_weights[key] = 0.5
	weights[key] = gr.Slider(
	label=key,
	minimum=0,
	maximum=1,
	step=0.01,
	value=0.5,
	)

	with gr.Box(visible=False) as each_key_ui:
	with gr.Column():
	create_weight_ui(
	"enc_p",
	[
	"enc_p.encoder.attn_layers.0",
	"enc_p.encoder.attn_layers.1",
	"enc_p.encoder.attn_layers.2",
	"enc_p.encoder.attn_layers.3",
	"enc_p.encoder.attn_layers.4",
	"enc_p.encoder.attn_layers.5",
	"enc_p.encoder.norm_layers_1.0",
	"enc_p.encoder.norm_layers_1.1",
	"enc_p.encoder.norm_layers_1.2",
	"enc_p.encoder.norm_layers_1.3",
	"enc_p.encoder.norm_layers_1.4",
	"enc_p.encoder.norm_layers_1.5",
	],
	[
	"enc_p.encoder.ffn_layers.0",
	"enc_p.encoder.ffn_layers.1",
	"enc_p.encoder.ffn_layers.2",
	"enc_p.encoder.ffn_layers.3",
	"enc_p.encoder.ffn_layers.4",
	"enc_p.encoder.ffn_layers.5",
	"enc_p.encoder.norm_layers_2.0",
	"enc_p.encoder.norm_layers_2.1",
	"enc_p.encoder.norm_layers_2.2",
	"enc_p.encoder.norm_layers_2.3",
	"enc_p.encoder.norm_layers_2.4",
	"enc_p.encoder.norm_layers_2.5",
	],
	[
	"enc_p.emb_phone",
	"enc_p.emb_pitch",
	],
	)

	create_weight_ui(
	"dec",
	[
	"dec.noise_convs.0",
	"dec.noise_convs.1",
	"dec.noise_convs.2",
	"dec.noise_convs.3",
	"dec.noise_convs.4",
	"dec.noise_convs.5",
	"dec.ups.0",
	"dec.ups.1",
	"dec.ups.2",
	"dec.ups.3",
	],
	[
	"dec.resblocks.0",
	"dec.resblocks.1",
	"dec.resblocks.2",
	"dec.resblocks.3",
	"dec.resblocks.4",
	"dec.resblocks.5",
	"dec.resblocks.6",
	"dec.resblocks.7",
	"dec.resblocks.8",
	"dec.resblocks.9",
	"dec.resblocks.10",
	"dec.resblocks.11",
	],
	[
	"dec.m_source.l_linear",
	"dec.conv_pre",
	"dec.conv_post",
	"dec.cond",
	],
	)

	create_weight_ui(
	"flow",
	[
	"flow.flows.0",
	"flow.flows.1",
	"flow.flows.2",
	"flow.flows.3",
	"flow.flows.4",
	"flow.flows.5",
	"flow.flows.6",
	"emb_g.weight",
	],
	)

	with gr.Accordion(label="JSON", open=False):
	weights_text = gr.TextArea(
	value=json.dumps(default_weights),
	)

	with gr.Accordion(label="Inference options", open=False):
	with gr.Row(equal_height=False):
	speaker_id = gr.Slider(
	minimum=0,
	maximum=2333,
	step=1,
	label="Speaker ID",
	value=0,
	visible=True,
	interactive=True,
	)
	(
	source_audio,
	_,
	transpose,
	embedder_name,
	embedding_output_layer,
	pitch_extraction_algo,
	auto_load_index,
	faiss_index_file,
	retrieval_feature_ratio,
	fo_curve_file,
	) = inference_options_ui(show_out_dir=False)

	with gr.Row(equal_height=False):
	with gr.Column():
	status = gr.Textbox(value="", label="Status")
	audio_output = gr.Audio(label="Output", interactive=False)

	with gr.Row(equal_height=False):
	merge_and_save_button = gr.Button(
	"Merge and save", variant="primary"
	)
	merge_and_gen_button = gr.Button("Merge and gen", variant="primary")

	def each_key_on_change(each_key):
	return gr.update(visible=each_key)

	each_key.change(
	fn=each_key_on_change,
	inputs=[each_key],
	outputs=[each_key_ui],
	)

	def update_weights_text(data):
	d = {}
	for key in weights.keys():
	d[key] = data[weights[key]]
	return json.dumps(d)

	for w in weights.values():
	w.change(
	fn=update_weights_text,
	inputs={*weights.values()},
	outputs=[weights_text],
	)

	merge_data = [
	model_a,
	model_b,
	model_c,
	base_alpha,
	each_key,
	weights_text,
	method,
	]

	inference_opts = [
	speaker_id,
	source_audio,
	embedder_name,
	embedding_output_layer,
	transpose,
	fo_curve_file,
	pitch_extraction_algo,
	auto_load_index,
	faiss_index_file,
	retrieval_feature_ratio,
	]

	merge_and_save_button.click(
	fn=merge_and_save,
	inputs=[
	*merge_data,
	output_name,
	],
	outputs=[status],
	)
	merge_and_gen_button.click(
	fn=merge_and_gen,
	inputs=[
	*merge_data,
	*inference_opts,
	],
	outputs=[status, audio_output],
	)

	model_a.change(
	update_speaker_ids, inputs=[model_a], outputs=[speaker_id]
	)