MLSpeech
/

CarelessWhisper-Streaming

@@ -1,129 +1,128 @@
 ---
-license: mit
 datasets:
-  - openslr/librispeech_asr
-  - facebook/multilingual_librispeech
 language:
-  - en
-  - fr
-  - de
-  - pt
-  - es
 metrics:
-  - wer
 base_model:
-  - openai/whisper-large-v2
-  - openai/whisper-small
-  - openai/whisper-base
 pipeline_tag: automatic-speech-recognition
 tags:
-  - streaming
-  - asr
-  - Transformer
-  - encoder-decoder
-  - pytorch
-  - audio
-  - speech
-  - Whisper
 model-index:
-  - name: CarelessWhisper-large-v2
-    results:
-      - task:
-          type: streaming-transcription-chunk-300msec
-        dataset:
-          name: test-clean
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 5.29
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 6.00
-      - task:
-          type: streaming-transcription-chunk-300msec
-        dataset:
-          name: test-other
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 10.74
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 11.38
-      - task:
-          type: streaming-transcription-chunk-200msec
-        dataset:
-          name: test-clean
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 5.92
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 6.63
-      - task:
-          type: streaming-transcription-chunk-200msec
-        dataset:
-          name: test-other
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 11.41
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 12.60
-      - task:
-          type: streaming-transcription-chunk-100msec
-        dataset:
-          name: test-clean
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 6.33
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 7.76
-      - task:
-          type: streaming-transcription-chunk-100msec
-        dataset:
-          name: test-other
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 13.06
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 14.99
-      - task:
-          type: streaming-transcription-chunk-40msec
-        dataset:
-          name: test-clean
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 7.76
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 9.94
-      - task:
-          type: streaming-transcription-chunk-40msec
-        dataset:
-          name: test-other
-          type: LibriSpeech
-        metrics:
-          - name: Word Error Rate (WER) [%]
-            type: Word Error Rate (WER) [%]
-            value: 16.73
-          - name: Aligned-Relative Word Error Rate (ARWER) [%]
-            type: Aligned-Relative Word Error Rate (WER) [%]
-            value: 19.28
 ---
 # CarelessWhisper - Causal Whisper Streaming Model
 Causal Whisper Streaming is a fine tuned version of OpenAI Whisper, which can handle causal data and perform real-time transcription.
@@ -310,7 +309,4 @@ Portions derived from [OpenAI Whisper](https://github.com/openai/whisper) are li
 [![CC BY-NC 4.0 License](https://img.shields.io/badge/License-CC--BY--NC%204.0-blue.svg)](https://creativecommons.org/licenses/by-nc/4.0/)
 All other original code in this repository is licensed under the **Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)**.
-See the [LICENSE](./LICENSE) file for full details.

 ---
 datasets:
+- openslr/librispeech_asr
+- facebook/multilingual_librispeech
 language:
+- en
+- fr
+- de
+- pt
+- es
 metrics:
+- wer
 base_model:
+- openai/whisper-large-v2
+- openai/whisper-small
+- openai/whisper-base
 pipeline_tag: automatic-speech-recognition
 tags:
+- streaming
+- asr
+- Transformer
+- encoder-decoder
+- pytorch
+- audio
+- speech
+- Whisper
 model-index:
+- name: CarelessWhisper-large-v2
+  results:
+  - task:
+      type: streaming-transcription-chunk-300msec
+    dataset:
+      name: test-clean
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 5.29
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 6
+  - task:
+      type: streaming-transcription-chunk-300msec
+    dataset:
+      name: test-other
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 10.74
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 11.38
+  - task:
+      type: streaming-transcription-chunk-200msec
+    dataset:
+      name: test-clean
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 5.92
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 6.63
+  - task:
+      type: streaming-transcription-chunk-200msec
+    dataset:
+      name: test-other
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 11.41
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 12.6
+  - task:
+      type: streaming-transcription-chunk-100msec
+    dataset:
+      name: test-clean
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 6.33
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 7.76
+  - task:
+      type: streaming-transcription-chunk-100msec
+    dataset:
+      name: test-other
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 13.06
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 14.99
+  - task:
+      type: streaming-transcription-chunk-40msec
+    dataset:
+      name: test-clean
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 7.76
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 9.94
+  - task:
+      type: streaming-transcription-chunk-40msec
+    dataset:
+      name: test-other
+      type: LibriSpeech
+    metrics:
+    - name: Word Error Rate (WER) [%]
+      type: Word Error Rate (WER) [%]
+      value: 16.73
+    - name: Aligned-Relative Word Error Rate (ARWER) [%]
+      type: Aligned-Relative Word Error Rate (WER) [%]
+      value: 19.28
 ---
 # CarelessWhisper - Causal Whisper Streaming Model
 Causal Whisper Streaming is a fine tuned version of OpenAI Whisper, which can handle causal data and perform real-time transcription.
 [![CC BY-NC 4.0 License](https://img.shields.io/badge/License-CC--BY--NC%204.0-blue.svg)](https://creativecommons.org/licenses/by-nc/4.0/)
 All other original code in this repository is licensed under the **Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)**.
+See the [LICENSE](./LICENSE) file for full details.