Duplicate from YatharthS/FlashSR

Browse files

Co-authored-by: Yatharth Sharma <YatharthS@users.noreply.huggingface.co>

Files changed (4) hide show

.gitattributes +35 -0
README.md +37 -0
onnx/model.onnx +3 -0
upsampler.pth +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,37 @@

+---
+license: apache-2.0
+pipeline_tag: audio-to-audio
+tags:
+- pytorch
+- audio
+- upsampling
+---
+# FlashSR
+FlashSR is a 2MB audio super-resolution model based on the HierSpeech++'s upsampler architecture. It upscales 16kHz audio to 48kHz at speeds ranging from 200x to 400x real-time.
+### Details
+* **Model Size:** 2MB for pytorch version, 500KB for onnx version
+* **Input Rate:** 16kHz
+* **Output Rate:** 48kHz
+* **Inference Speed:** 200x - 400x real-time depending on gpu and dtype
+### Performance Summary
+FlashSR is designed for high-speed frequency reconstruction. It offers a significantly lower computational footprint compared to alternatives such as Resemble-Enhance and ClearerVoice, while maintaining similar output quality.
+### Benchmark Comparison
+| Model | Speed | Size |
+| :--- | :--- | :--- |
+| **FlashSR** | **200x - 400x realtime** | **2MB/500KB** |
+| Resemble-Enhance | < 20x realtime | ~700MB+ |
+| ClearerVoice | < 20x realtime | ~200MB+ |
+### Usage
+Usage instructions for onnx/pytorch and source code are available on GitHub:
+https://github.com/ysharma3501/FlashSR
+### Credits
+Thanks to the authors of **HierSpeech++** as this was based on it's 48khz upsampler and [Xenova](https://github.com/xenova/) for onnx code.

onnx/model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e255c76b227f16f7f392cc43677c38bd2c5aa129f042a2ba3eb03fb29e470c7a
+size 498624

upsampler.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62c70874ac4efeb4dc9c8aa9dc0a611a951e1c36292abeb4c406d7fb91e0eefc
+size 1715101