revert: upload unmodified spacekaren/chatterbox-turbo-webgpu models (our INT64 fix was breaking them)

Browse files

Files changed (6) hide show

.gitattributes +3 -0
README.md +52 -0
onnx/conditional_decoder_q4f16.onnx +2 -2
onnx/embed_tokens_q4f16.onnx +2 -2
onnx/language_model_q4f16.onnx +2 -2
onnx/speech_encoder_q4f16.onnx +2 -2

.gitattributes CHANGED Viewed

@@ -37,3 +37,6 @@ onnx/conditional_decoder_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
 onnx/embed_tokens_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
 onnx/language_model_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
 onnx/speech_encoder_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text

 onnx/embed_tokens_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
 onnx/language_model_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
 onnx/speech_encoder_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/conditional_decoder.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/speech_encoder.onnx_data filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,52 @@

+---
+license: mit
+base_model: ResembleAI/chatterbox-turbo-ONNX
+tags:
+  - text-to-speech
+  - tts
+  - onnx
+  - webgpu
+  - transformers.js
+---
+# Chatterbox Turbo - WebGPU Compatible
+This is a WebGPU-compatible version of [ResembleAI/chatterbox-turbo-ONNX](https://huggingface.co/ResembleAI/chatterbox-turbo-ONNX).
+## Changes from Original
+The original model contains `int64` Cast operations and tensors that WebGPU cannot execute.
+This version converts all `int64` operations to `int32`, enabling direct WebGPU inference.
+### Modifications Made:
+- **conditional_decoder**: 521 Cast nodes inserted (376 Shape/Range ops)
+- **speech_encoder**: 350 Cast nodes inserted (243 Shape/Range ops)
+- **language_model**: 3 Cast nodes inserted
+- **embed_tokens**: 1 Cast node inserted
+## Usage with Transformers.js
+```javascript
+import { AutoModel, AutoProcessor } from '@huggingface/transformers';
+const model = await AutoModel.from_pretrained('spacekaren/chatterbox-turbo-webgpu', {
+  device: 'webgpu',
+  dtype: 'q4f16',
+});
+const processor = await AutoProcessor.from_pretrained('spacekaren/chatterbox-turbo-webgpu');
+```
+## Model Size
+- **Total**: ~539 MB (q4f16 quantization)
+- Same architecture as original, just int64→int32 conversion
+## License
+MIT (same as original)
+## Credits
+- Original model: [ResembleAI/chatterbox-turbo-ONNX](https://huggingface.co/ResembleAI/chatterbox-turbo-ONNX)
+- Conversion script: [local.core/scripts/convert_int64_to_int32.py](https://github.com/anthropics/lama)

onnx/conditional_decoder_q4f16.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fe3e2ea628309d65240ac255460f4f212f507630ad4a3930e987756b305056c
-size 2293658

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a0d7f7c574dc40d6f5649229e8203bc181b75f119a4c80e97d2ca2defd53593
+size 2398356

onnx/embed_tokens_q4f16.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e751be91ab70bfb01da112ee08f17094b852b5e9de945afd1a6f86380d532be
-size 2284

 version https://git-lfs.github.com/spec/v1
+oid sha256:d59c34a799c5dc5d5220bb1b70d1bd5e9b689db7340cd9e4a73b8a8c904b841a
+size 2524

onnx/language_model_q4f16.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfcf02b1dd6c2358d0c85f54e19a5aaaf38e4cb48b43c1db2530a10038523601
-size 216183

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd3f7756161d6e03f2b10212170c8f4364f568cf21ac660eead8121a09690b8a
+size 276817

onnx/speech_encoder_q4f16.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e733761bad10c08b00ec4ae21eec9e301b65147a0e5d125219e1e00613c6a369
-size 1282520

 version https://git-lfs.github.com/spec/v1
+oid sha256:57986f2f254d415edc627b469dc67f5c09016e2873df15db7cda1579005aec9f
+size 1220677