Spaces:

yoyolicoris
/

diffvox

Running

App Files Files Community

yoyolicoris commited on May 10

Commit

3044e63

1 Parent(s): eb92285

Implement initial version of demo website

Browse files

Files changed (1) hide show

app.py +192 -0

app.py ADDED Viewed

	@@ -0,0 +1,192 @@

+import gradio as gr
+import numpy as np
+import torch
+import yaml
+import json
+import pyloudnorm as pyln
+from hydra.utils import instantiate
+from random import normalvariate
+from soxr import resample
+from functools import partial
+from src.modules.utils import chain_functions, vec2statedict, get_chunks
+from src.modules.fx import clip_delay_eq_Q
+SLIDER_MAX = 3
+SLIDER_MIN = -3
+NUMBER_OF_PCS = 10
+TEMPERATURE = 0.7
+CONFIG_PATH = "src/presets/rt_config.yaml"
+PCA_PARAM_FILE = "src/presets/internal/gaussian.npz"
+INFO_PATH = "src/presets/internal/info.json"
+with open(CONFIG_PATH) as fp:
+    fx_config = yaml.safe_load(fp)["model"]
+    # append "src." to the module name
+    appendsrc = lambda d: (
+        {
+            k: (
+                f"src.{v}"
+                if (k == "_target_" and v.startswith("modules."))
+                else appendsrc(v)
+            )
+            for k, v in d.items()
+        }
+        if isinstance(d, dict)
+        else (list(map(appendsrc, d)) if isinstance(d, list) else d)
+    )
+    fx_config = appendsrc(fx_config)  # type: ignore
+fx = instantiate(fx_config)
+fx.eval()
+pca_params = np.load(PCA_PARAM_FILE)
+mean = pca_params["mean"]
+cov = pca_params["cov"]
+eigvals, eigvecs = np.linalg.eigh(cov)
+eigvals = np.flip(eigvals, axis=0)[:75]
+eigvecs = np.flip(eigvecs, axis=1)[:, :75]
+U = eigvecs * np.sqrt(eigvals)
+U = torch.from_numpy(U).float()
+mean = torch.from_numpy(mean).float()
+with open(INFO_PATH) as f:
+    info = json.load(f)
+param_keys = info["params_keys"]
+original_shapes = list(
+    map(lambda lst: lst if len(lst) else [1], info["params_original_shapes"])
+)
+*vec2dict_args, _ = get_chunks(param_keys, original_shapes)
+vec2dict_args = [param_keys, original_shapes] + vec2dict_args
+vec2dict = partial(
+    vec2statedict,
+    **dict(
+        zip(
+            [
+                "keys",
+                "original_shapes",
+                "selected_chunks",
+                "position",
+                "U_matrix_shape",
+            ],
+            vec2dict_args,
+        )
+    ),
+)
+meter = pyln.Meter(44100)
+@torch.no_grad()
+def inference(audio, randomise_rest, *pcs):
+    sr, y = audio
+    if sr != 44100:
+        y = resample(y, sr, 44100)
+    if y.dtype.kind != "f":
+        y = y / 32768.0
+    if y.ndim == 1:
+        y = y[:, None]
+    loudness = meter.integrated_loudness(y)
+    y = pyln.normalize.loudness(y, loudness, -18.0)
+    y = torch.from_numpy(y).float().T.unsqueeze(0)
+    if y.shape[1] != 1:
+        y = y.mean(dim=1, keepdim=True)
+    M = eigvals.shape[0]
+    z = torch.cat(
+        [
+            torch.tensor([float(x) for x in pcs]),
+            (
+                torch.randn(M - len(pcs)) * TEMPERATURE
+                if randomise_rest
+                else torch.zeros(M - len(pcs))
+            ),
+        ]
+    )
+    x = U @ z + mean
+    fx.load_state_dict(vec2dict(x), strict=False)
+    fx.apply(partial(clip_delay_eq_Q, Q=0.707))
+    rendered = fx(y).squeeze(0).T.numpy()
+    if np.max(np.abs(rendered)) > 1:
+        rendered = rendered / np.max(np.abs(rendered))
+    return (44100, (rendered * 32768).astype(np.int16))
+def get_important_pcs(n=10, **kwargs):
+    sliders = [
+        gr.Slider(minimum=SLIDER_MIN, maximum=SLIDER_MAX, label=f"PC {i}", **kwargs)
+        for i in range(1, n + 1)
+    ]
+    return sliders
+with gr.Blocks() as demo:
+    gr.Markdown(
+        """
+        # Hadamard Transform
+        This is a demo of the Hadamard transform.
+        """
+    )
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(type="numpy", sources="upload", label="Input Audio")
+            with gr.Row():
+                random_button = gr.Button(
+                    f"Randomise the first {NUMBER_OF_PCS} PCs",
+                    elem_id="randomise-button",
+                )
+                reset_button = gr.Button(
+                    "Reset",
+                    elem_id="reset-button",
+                )
+                render_button = gr.Button(
+                    "Run", elem_id="render-button", variant="primary"
+                )
+            random_rest_checkbox = gr.Checkbox(
+                label=f"Randomise PCs > {NUMBER_OF_PCS} (default to zeros)",
+                value=False,
+                elem_id="randomise-checkbox",
+            )
+            sliders = get_important_pcs(NUMBER_OF_PCS, value=0)
+        with gr.Column():
+            audio_output = gr.Audio(
+                type="numpy", label="Output Audio", interactive=False
+            )
+    render_button.click(
+        inference,
+        inputs=[
+            audio_input,
+            random_rest_checkbox,
+        ]
+        + sliders,
+        outputs=audio_output,
+    )
+    random_button.click(
+        lambda *xs: [
+            chain_functions(
+                partial(max, SLIDER_MIN),
+                partial(min, SLIDER_MAX),
+            )(normalvariate(0, 1))
+            for _ in range(len(xs))
+        ],
+        inputs=sliders,
+        outputs=sliders,
+    )
+    reset_button.click(
+        lambda *xs: [0 for _ in range(len(xs))],
+        inputs=sliders,
+        outputs=sliders,
+    )
+demo.launch()