Spaces:

naumxv
/

whisper-api-fast

Sleeping

Joshua Lochner commited on Nov 3, 2023

Commit

3979408

1 Parent(s): 0c54572

Add support for distil-whisper models

Files changed (3) hide show

src/components/AudioManager.tsx CHANGED Viewed

@@ -368,10 +368,15 @@ function SettingsModal(props: {
     const names = Object.values(LANGUAGES).map(titleCase);
     const models = {
-        tiny: [41, 152],
-        base: [77, 291],
-        small: [249],
-        medium: [776],
     };
     return (
         <Modal
@@ -394,9 +399,14 @@ function SettingsModal(props: {
                                     // @ts-ignore
                                     models[key].length == 2,
                             )
                             .map((key) => (
-                                <option key={key} value={key}>{`whisper-${key}${
-                                    props.transcriber.multilingual ? "" : ".en"
                                 } (${
                                     // @ts-ignore
                                     models[key][

     const names = Object.values(LANGUAGES).map(titleCase);
     const models = {
+        // Original checkpoints
+        'Xenova/whisper-tiny': [41, 152],
+        'Xenova/whisper-base': [77, 291],
+        'Xenova/whisper-small': [249],
+        'Xenova/whisper-medium': [776],
+        // Distil Whisper (English-only)
+        'distil-whisper/distil-medium.en': [402],
+        'distil-whisper/distil-large-v2': [767],
     };
     return (
         <Modal
                                     // @ts-ignore
                                     models[key].length == 2,
                             )
+                            .filter(
+                                (key) => (
+                                    !props.transcriber.multilingual || !key.startsWith('distil-whisper/')
+                                )
+                            )
                             .map((key) => (
+                                <option key={key} value={key}>{`${key}${
+                                    (props.transcriber.multilingual || key.startsWith('distil-whisper/')) ? "" : ".en"
                                 } (${
                                     // @ts-ignore
                                     models[key][

src/utils/Constants.ts CHANGED Viewed

@@ -24,9 +24,9 @@ const isMobileOrTablet = mobileTabletCheck();
 export default {
     SAMPLING_RATE: 16000,
     DEFAULT_AUDIO_URL: `https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/${
-        isMobileOrTablet ? "jfk" : "ted_60"
     }.wav`,
-    DEFAULT_MODEL: "tiny",
     DEFAULT_SUBTASK: "transcribe",
     DEFAULT_LANGUAGE: "english",
     DEFAULT_QUANTIZED: isMobileOrTablet,

 export default {
     SAMPLING_RATE: 16000,
     DEFAULT_AUDIO_URL: `https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/${
+        isMobileOrTablet ? "jfk" : "ted_60_16k"
     }.wav`,
+    DEFAULT_MODEL: "Xenova/whisper-tiny",
     DEFAULT_SUBTASK: "transcribe",
     DEFAULT_LANGUAGE: "english",
     DEFAULT_QUANTIZED: isMobileOrTablet,

src/worker.js CHANGED Viewed

@@ -67,9 +67,13 @@ const transcribe = async (
     subtask,
     language,
 ) => {
-    // TODO use subtask and language
-    const modelName = `Xenova/whisper-${model}${multilingual ? "" : ".en"}`;
     const p = AutomaticSpeechRecognitionPipelineFactory;
     if (p.model !== modelName || p.quantized !== quantized) {
@@ -148,8 +152,8 @@ const transcribe = async (
         do_sample: false,
         // Sliding window
-        chunk_length_s: 30,
-        stride_length_s: 5,
         // Language and task
         language: language,

     subtask,
     language,
 ) => {
+    const isDistilWhisper = model.startsWith("distil-whisper/");
+    let modelName = model;
+    if (!isDistilWhisper && !multilingual) {
+        modelName += ".en"
+    }
     const p = AutomaticSpeechRecognitionPipelineFactory;
     if (p.model !== modelName || p.quantized !== quantized) {
         do_sample: false,
         // Sliding window
+        chunk_length_s: isDistilWhisper ? 20 : 30,
+        stride_length_s: isDistilWhisper ? 3 : 5,
         // Language and task
         language: language,