Spaces:

teticio
/

audio-diffusion

Runtime error

App Files Files Community

teticio commited on Oct 4, 2022

Commit

b7c9dfd

1 Parent(s): 0ff9228

normalize in remix

Browse files

Files changed (2) hide show

audiodiffusion/__init__.py +1 -1
notebooks/test_model.ipynb +25 -32

audiodiffusion/__init__.py CHANGED Viewed

@@ -92,7 +92,7 @@ class AudioDiffusion:
         images = noise = torch.randn(
             (1, self.ddpm.unet.in_channels, self.ddpm.unet.sample_size,
              self.ddpm.unet.sample_size),
-            generator=generator,
         )
         if audio_file is not None or raw_audio is not None:

         images = noise = torch.randn(
             (1, self.ddpm.unet.in_channels, self.ddpm.unet.sample_size,
              self.ddpm.unet.sample_size),
+            generator=generator
         )
         if audio_file is not None or raw_audio is not None:

notebooks/test_model.ipynb CHANGED Viewed

@@ -87,6 +87,16 @@
     "audio_diffusion = AudioDiffusion(model_id=model_id)"
    ]
   },
   {
    "cell_type": "markdown",
    "id": "011fb5a1",
@@ -171,7 +181,7 @@
   },
   {
    "cell_type": "markdown",
-   "id": "97da7c6d",
    "metadata": {},
    "source": [
     "### Generate continuations (\"out-painting\")"
@@ -180,7 +190,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "4581936c",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -230,7 +240,7 @@
     "    from google.colab import files\n",
     "    audio_file = list(files.upload().keys())[0]\n",
     "except:\n",
-    "    audio_file = \"/home/teticio/Music/Music/Sven Väth/In the Mix_ The Sound of the Sixteenth S/14 Eclipse.m4a\""
    ]
   },
   {
@@ -244,43 +254,44 @@
    "source": [
     "start_step = 500  #@param {type:\"slider\", min:0, max:1000, step:10}\n",
     "overlap_secs = 2  #@param {type:\"integer\"}\n",
-    "mel = Mel(x_res=256, y_res=256)\n",
     "mel.load_audio(audio_file)\n",
     "overlap_samples = overlap_secs * mel.get_sample_rate()\n",
-    "slice_size = audio_diffusion.mel.x_res * audio_diffusion.mel.hop_length\n",
     "stride = slice_size - overlap_samples\n",
     "generator = torch.Generator()\n",
     "seed = generator.seed()\n",
     "track = np.array([])\n",
     "for sample in range(len(mel.audio) // stride):\n",
     "    generator.manual_seed(seed)\n",
-    "    audio = mel.audio[sample * stride:sample * stride + slice_size]\n",
     "    if len(track) > 0:\n",
-    "        audio[:overlap_samples] = audio2[-overlap_samples:]\n",
     "    _, (sample_rate,\n",
     "        audio2) = audio_diffusion.generate_spectrogram_and_audio_from_audio(\n",
     "            raw_audio=audio,\n",
     "            start_step=start_step,\n",
     "            generator=generator,\n",
-    "            mask_start_secs=1 if len(track) > 0 else 0)\n",
-    "    display(Audio(audio, rate=sample_rate))\n",
-    "    display(Audio(audio2, rate=sample_rate))\n",
     "    track = np.concatenate([track, audio2[overlap_samples:]])"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "90457786",
    "metadata": {},
    "outputs": [],
    "source": [
-    "display(Audio(track, rate=sample_rate))"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "d9910e82",
    "metadata": {},
    "source": [
     "### Fill the gap (\"in-painting\")"
@@ -289,7 +300,7 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "fd3eb365",
    "metadata": {},
    "outputs": [],
    "source": [
@@ -313,16 +324,6 @@
     "### Compare results with random sample from training set"
    ]
   },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "f028a3c8",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "mel = Mel(x_res=256, y_res=256)"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -354,14 +355,6 @@
     "audio = mel.image_to_audio(image)\n",
     "Audio(data=audio, rate=mel.get_sample_rate())"
    ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "d32afb5e",
-   "metadata": {},
-   "outputs": [],
-   "source": []
   }
  ],
  "metadata": {

     "audio_diffusion = AudioDiffusion(model_id=model_id)"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6e16ed0e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "mel = Mel(x_res=256, y_res=256)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "011fb5a1",
   },
   {
    "cell_type": "markdown",
+   "id": "c3b05163",
    "metadata": {},
    "source": [
     "### Generate continuations (\"out-painting\")"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "4add9643",
    "metadata": {},
    "outputs": [],
    "source": [
     "    from google.colab import files\n",
     "    audio_file = list(files.upload().keys())[0]\n",
     "except:\n",
+    "    audio_file = \"/home/teticio/Music/liked/El Michels Affair - Glaciers Of Ice.mp3\""
    ]
   },
   {
    "source": [
     "start_step = 500  #@param {type:\"slider\", min:0, max:1000, step:10}\n",
     "overlap_secs = 2  #@param {type:\"integer\"}\n",
     "mel.load_audio(audio_file)\n",
     "overlap_samples = overlap_secs * mel.get_sample_rate()\n",
+    "slice_size = mel.x_res * mel.hop_length\n",
     "stride = slice_size - overlap_samples\n",
     "generator = torch.Generator()\n",
     "seed = generator.seed()\n",
     "track = np.array([])\n",
     "for sample in range(len(mel.audio) // stride):\n",
     "    generator.manual_seed(seed)\n",
+    "    audio = np.array(mel.audio[sample * stride:sample * stride + slice_size])\n",
+    "    display(Audio(audio, rate=sample_rate))\n",
     "    if len(track) > 0:\n",
+    "        # Normalize and re-insert generated audio\n",
+    "        audio[:overlap_samples] = audio2[-overlap_samples:] * np.max(\n",
+    "            audio[:overlap_samples]) / np.max(audio2[-overlap_samples:])\n",
     "    _, (sample_rate,\n",
     "        audio2) = audio_diffusion.generate_spectrogram_and_audio_from_audio(\n",
     "            raw_audio=audio,\n",
     "            start_step=start_step,\n",
     "            generator=generator,\n",
+    "            mask_start_secs=overlap_secs if len(track) > 0 else 0)\n",
+    "    display(Audio(audio2http://localhost:8889/notebooks/huggingface/audio-diffusion/notebooks/test_model.ipynb#, rate=sample_rate))\n",
     "    track = np.concatenate([track, audio2[overlap_samples:]])"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "6e54802a",
    "metadata": {},
    "outputs": [],
    "source": [
+    "Audio(track, rate=sample_rate)"
    ]
   },
   {
    "cell_type": "markdown",
+   "id": "2147bddb",
    "metadata": {},
    "source": [
     "### Fill the gap (\"in-painting\")"
   {
    "cell_type": "code",
    "execution_count": null,
+   "id": "c9de4e17",
    "metadata": {},
    "outputs": [],
    "source": [
     "### Compare results with random sample from training set"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
     "audio = mel.image_to_audio(image)\n",
     "Audio(data=audio, rate=mel.get_sample_rate())"
    ]
   }
  ],
  "metadata": {