Duplicate from drbaph/AudioSR

Browse files

Co-authored-by: DRBAPH <drbaph@users.noreply.huggingface.co>

Files changed (8) hide show

.gitattributes +39 -0
AudioSR/audiosr_basic_fp32.safetensors +3 -0
AudioSR/audiosr_speech_fp32.safetensors +3 -0
README.md +86 -0
samples/event_audiosr_2.wav +3 -0
samples/event_up_2.wav +3 -0
samples/speech_audiosr_4.wav +3 -0
samples/speech_up_4.wav +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,39 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+samples/event_audiosr_2.wav filter=lfs diff=lfs merge=lfs -text
+samples/event_up_2.wav filter=lfs diff=lfs merge=lfs -text
+samples/speech_audiosr_4.wav filter=lfs diff=lfs merge=lfs -text
+samples/speech_up_4.wav filter=lfs diff=lfs merge=lfs -text

AudioSR/audiosr_basic_fp32.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:139db138159955434155c08f388ecdcef5827181d14ef8b8d63eed57f1cecacf
+size 6177350576

AudioSR/audiosr_speech_fp32.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80e0ad005ef8f6acdff512bd23f1590ab525bbd0419929d405d595426741801f
+size 6177350576

README.md ADDED Viewed

	@@ -0,0 +1,86 @@

+---
+license: mit
+tags:
+- audio
+- super-resolution
+- audio-upscaling
+- comfyui
+- audio-sr
+- audiosr
+- versatle-audio-super-resolution
+library_name: diffusers
+pipeline_tag: audio-to-audio
+---
+# AudioSR Models for ComfyUI
+Pre-trained AudioSR (Versatile Audio Super Resolution) models for use with [ComfyUI-AudioSR](https://github.com/Saganaki22/ComfyUI-AudioSR) custom node.
+<audio controls src="https://huggingface.co/drbaph/AudioSR/resolve/main/samples/speech_up_4.wav"></audio>
+<audio controls src="https://huggingface.co/drbaph/AudioSR/resolve/main/samples/speech_audiosr_4.wav"></audio>
+![ComfyUI_temp_bildo_00002_](https://cdn-uploads.huggingface.co/production/uploads/63473b59e5c0717e6737b872/ZMK6nkhj26kbLgRwJZqYp.png)
+## Models
+### audiosr_basic_fp32.safetensors
+- **Purpose:** General audio super-resolution
+- **Best for:** Music, sound effects, podcasts, mixed content
+- **Format:** FP32 SafeTensors
+- **Size:** ~5.9 GB
+### audiosr_speech_fp32.safetensors
+- **Purpose:** Speech/voice optimized super-resolution
+- **Best for:** Voice recordings, vocals, speech content
+- **Format:** FP32 SafeTensors
+- **Size:** ~5.9 GB
+## Usage
+### Installation
+1. Install [ComfyUI-AudioSR](https://github.com/Saganaki22/ComfyUI-AudioSR) via ComfyUI Manager
+2. Download model(s) from this repository
+3. Place in `ComfyUI/models/AudioSR/`
+### Quick Start
+```
+ComfyUI Workflow:
+Load Audio → AudioSR → Preview/Save Audio
+```
+**Recommended Settings:**
+- Steps: 50-100
+- Guidance Scale: 3.5-5.0
+- Model: Use `audiosr_speech_fp32.safetensors` for voice, `audiosr_basic_fp32.safetensors` for everything else
+## What it does
+AudioSR upscales low-quality audio to high-quality 48kHz output using latent diffusion. It:
+- Resamples to 48kHz
+- Enhances high frequencies
+- Reduces compression artifacts
+- Adds clarity and detail
+## Model Info
+Based on [AudioSR: Versatile Audio Super-Resolution](https://arxiv.org/abs/2309.07314) by Haohe Liu et al.
+Original repository: https://github.com/haoheliu/versatile_audio_super_resolution
+**License:** MIT
+## Hardware Requirements
+- **GPU:** NVIDIA RTX 3060 or higher (6GB+ VRAM minimum)
+- **RAM:** 12GB+ recommended
+- Works best with audio > 8kHz input sample rate
+## Credits
+- **Research:** [Haohe Liu](https://github.com/haoheliu) et al.
+- **Paper:** [AudioSR on arXiv](https://arxiv.org/abs/2309.07314)
+- **ComfyUI Integration:** [ComfyUI-AudioSR](https://github.com/Saganaki22/ComfyUI-AudioSR)

samples/event_audiosr_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4a6c12b4d142161f110e47f2a9cd443ad7421c38c641fa30689f62246eaecdf
+size 496610

samples/event_up_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d861f93944f126237404b54f13cf2955daebc82bb1524320397d4ef18222dc5
+size 491564

samples/speech_audiosr_4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63dff9877838fac135c41919b90d36653f310e0a71658b8579e58d518345a141
+size 491564

samples/speech_up_4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d8a06dc9af11ff3671d8132f2fb5579244f37f5ba111f206d2f16de5d60d042
+size 491564