--- pretty_name: "WhisperKit" viewer: false library_name: whisperkit tags: - whisper - whisperkit - coreml - asr - quantized - automatic-speech-recognition --- # WhisperKit WhisperKit is an on-device speech recognition framework for Apple Silicon: https://github.com/argmaxinc/WhisperKit Check out the WhisperKit paper and presentation from ICML 2025: https://icml.cc/virtual/2025/47854 For real-time streaming API, custom vocabulary, speaker diarization, and more, check out Argmax SDK: https://www.argmaxinc.com/blog/argmax-sdk-2 --- ## Evaluation: openai_whisper-large-v3-v20240930_turbo_632MB Transcription test results for the turbo 632MB model from this repo (aoiandroid/whisperkit-coreml). ### Environment | Item | Value | |------|--------| | Platform | macOS 14.x (arm64, Apple Silicon) | | WhisperKit | [argmaxinc/WhisperKit](https://github.com/argmaxinc/WhisperKit) 0.15.0+ (Swift Package) | | Model repo | aoiandroid/whisperkit-coreml | | Test date | 2026-03-17 | | Audio formats | m4a, mp3, wav, flac | ### Test results (14 files, multi-language) | File | Language / Content | Note | |------|--------------------|------| | English.mp3 | English | Texas travel narration (Gage Hotel, Padre Island, Corpus Christi, seafood); stable long-form transcription | | Euskara.mp3 | Basque | Speech on language and identity | | Guaraní.mp3 | Guarani | Short speech | | Yorùbá.mp3 | Yoruba | Education and future | | afrikaasns.mp3 | Afrikaans | Value of learning a new language | | arabic.mp3 | Arabic | Speech on hope and future (full Arabic) | | bengali.m4a | Bengali | Some mixed-language / recognition errors | | chinese.mp3 | Chinese | Long explanation on smart traffic systems | | isiZulu.mp3 | isiZulu | Future, education, youth | | kiswahili.mp3 | Kiswahili | Unity (umoja) | | korean.mp3 | Korean | "On challenge" (도전에 대하여) | | russinan.m4a | Russian | Russia–Latin America parliamentary conference (with some English at end) | | test.mp3 | Japanese | Typhoon 14 news; high accuracy | | 日本語.mp3 | Japanese | Ostrich facts / comedy; high accuracy | ### Actual transcription results (STT output) Below is the actual speech-to-text output from the model for each test file. Long transcriptions are truncated; full text is in `eval_logs/` in this repo.
English.mp3 ``` I'm Tara Kirschner. I shoot photos all over the world, and I've been blown away by what I've seen so far on my first trip to Texas. I've paddled canyons, hiked through history, and photographed stars in one of the darkest skies in the country. After two incredible days, I decide to head down to Corpus Christi. But before I do, I want to make a quick stop in the charming little town of Marathon and check out its iconic attraction, the Gage Hotel. The Gage Hotel is very West Texas. Built in 1927 by local ranching tycoon Alfred Gage, who owned half a million acres of prime grazing land. You can really tell that it's been there since the 1920s. There's a lot of history on the walls. I feel like I'm stepping into a movie. Oh wow, this is cool. Marathon and the surrounding area are rich in art and culture. And I found the same spirit at the Gage Hotel. like this art installation I found just outside, where even the smallest details tell a bigger story. It's the kind of place I'd love to shoot. I could have just stayed there all day taking pictures. I'm ready to eat, so I head over to the V6 coffee shop and order the migas. Thank you. You're welcome. They're the migas. Enjoy. A local specialty with eggs, cheese, pico, and tortilla, all mixed together. Tex-Mex food is my jam. Literally, put anything in a tortilla and I'm happy. How was everything? It was amazing, thank you so much. Yeah, migas are very popular here. I bet. Are you from here? Yes. Oh, wow. Born and raised, yes we are. Wow. One of the things I noticed is that the art scene here is unreal. Has it always been like that? I feel like it recently just kind of took over, kind of here, Alpine, Marfa area. I'm obsessed. I walk like three feet and take a photo, and three more feet and take a photo. Awesome. Well, thank you for coming. Thank you. And safe travels to Corpus. Thank you. My next stop, Corpus Christi. My adventure here starts at sunrise. Here on Padre Island, I'm meeting January from Horse House. And we're about to go ride horses on the beach. [... full text in eval_logs/ ...] ```
test.mp3 (Japanese) ``` 過去最強クラスの台風14号が近づいてきています。九州南部、そして北部の皆さんを中心に防風、高波、高潮や大雨などに最大級の警戒をしてください。 ```
日本語.mp3 (Japanese) ``` ダチョウの頭が悪すぎるこのアホみたいに爆走している生き物はダチョウといい体長2.5m体重150kgを超える規格外のサイズですそしてこの巨体で時速70kgで走ることができますこのスピードで走れる生き物でさえ数少ないのですがダチョウは驚くことに時速60kg以上保ったまま1時間走ることができますもう気づいている方もいるかもしれませんがダチョウはフルマラソンなら42分で完走しますまた女性が憧れるほどのフサフサまつげとパッチリした瞳は5キロ先のものを認識でき世界一視力の良い動物とも言われていますここまででダチョウの優れた身体能力が分かると思いますが最も優れているのは回復力と免疫力の高さですダチョウはバチクソ凶暴なのでよく怪我をしその傷口をカラスなどにつつかれて骨が丸見えになることもありますしかしダチョウは痛がることも気にすることもなく1ヶ月もすれば全て再生しますまたどれほど傷ができようとも免疫力が異常に高いため感染症にかかることがなく病気で死ぬことはありませんそれほどにまで優れた身体能力を持っているダチョウですが一つだけ致命的な欠点がありますそれは奇跡的な頭の悪さですダチョウは巨体とは裏腹に脳みそはくるみサイズの40gほどと非常に小さくシワもありませんそのため記憶力が壊滅的です基本的に何も覚えられません家族の顔も覚えられないので家族が入れ替わったり減ったりしても気づきませんさらに人が背中に飛び乗ってもそのことを一瞬で忘れるため人を背中に乗せたまま普通に生活しだしますまた考えることができないため一羽が走り出したらおっさのように全員が走り出しますなぜ走るのかは本人たちも分かっていませんそれがアホみたいな身体能力と奇跡的な頭の悪さを兼ね備えた生き物ダチョウなのです ```
korean.mp3 (Korean) ``` 도전에 대하여 여러분 안녕하십니까? 오늘 저는 도전이라는 주제에 대해 이야기하고자 합니다. 우리는 살아가면서 크고 작은 선택의 순간을 맞이합니다. 그 선택 앞에서 우리는 종종 두려움을 느낍니다. 실패하면 어떻게 할까? 사람들이 나를 어떻게 볼까? 나는 과연 잘할 수 있을까? 하는 걱정이 우리를 망설이게 만듭니다. 하지만 도전하지 않으면 아무것도 변하지 않습니다. 도전은 우리의 가능성을 발견하게 해주는 첫걸음입니다. 비록 결과가 우리가 원하는 방향이 아니더라도 그 과정 속에서 우리는 배우고 성장합니다. 실패는 끝이 아니라 배움의 시작입니다. 성공한 사람들의 이야기를 들어보면 그들 역시 수많은 실패를 경험했습니다. 중요한 것은 넘어지지 않는 것이 아니라 넘어졌을 때 다시 일어나는 용기입니다. 도전은 완벽한 준비가 되었을 때 시작하는 것이 아니라 부족함을 인정하면서도 한 걸음을 내딛는 순간 시작됩니다. 또한 도전은 우리에게 자신감을 줍니다. 작은 도전을 하나씩 이루어 갈 때마다 우리는 나도 할 수 있다는 믿음을 얻게 됩니다. 그 믿음은 또 다른 도전으로 이어지고 결국 우리의 삶을 더 넓고 깊게 만들어줍니다. 물론 도전에는 두려움이 따릅니다. 그러나 두려움이 있다는 것은 그 일이 우리에게 중요하다는 뜻이기도 합니다. 두려움을 피하기보다 마주할 때 우리는 이전보다 더 강해집니다. 그리고 그 경험은 우리의 인생에서 소중한 자산이 됩니다. 여러분, 지금 마음속에 망설이고 있는 일이 있다면 한번 용기를 내보십시오. 거창한 목표가 아니어도 괜찮습니다. 새로운 취미를 시작하는 것, 새로운 사람에게 먼저 인사하는 것, 새로운 공부를 시작하는 것, all of these are also challenges. 중요한 것은 크기가 아니라 시도하는 마음입니다. 우리의 인생은 한 번뿐입니다. 안전한 길만을 선택하기에는 너무나 소중한 시간입니다. 때로는 실패하더라도 도전했던 기억은 후회보다 더 값진 경험으로 남습니다. 마지막으로 여러분께 말씀드리고 싶습니다. 도전은 특별한 사람만의 권리가 아닙니다. 바로 지금 이 자리에 있는 우리 모두의 권리이며 가능성입니다. 오늘 작은 한 걸음을 내딛는다면 내일은 분명히 달라질 것입니다. 경청해 주셔서 감사합니다. ```
arabic.mp3 (Arabic) ``` خطاب عن الأمل والمستقبل السلام عليكم ورحمة الله وبركاته أيها الحضور الكريم يسعدني أن أقف أمامكم اليوم لأتحدث عن موضوع مهم في حياتنا جميعاً وهو الأمل والمستقبل. إن الأمل هو النور الذي يضيء طريقنا في أوقات الظلام وهو القوة التي تدفعنا إلى الاستمرار رغم الصعوبات والتحديات. نحن نعيش في عالم مليء بالتغيرات السريعة كل يوم نواجه أخبار جديدة وتحديات مختلفة وربما أحيانا نشعر بالخوف أو القلق من المستقبل ولكن مهما كانت الظروف يبقى الأمل هو السلاح الأقوى الذي نملكه فبدون الأمل نفقد الرغبة في العمل ونفقد الإيمان بقدرتنا على التغيير إن المستقبل لا يبنى بالأحلام وحدها بل يبنى بالعمل والاجتهاد والإصرار عندما نؤمن بأنفسنا ونسعى لتطوير مهاراتنا ونتعلم من أخطائنا فإننا نضع أساسا قويا لمستقبل أفضل كل إنجاز عظيم بدأ بفكرة صغيرة وكل نجاح كبير كان نتيجة خطوات متواضعة ولكن ثابتة الأمل لا يعني تجاهل الواقع أو إنكار الصعوبات بل يعني النظر إلى التحديات كفرص للنمو والتعلم فعندما نواجه الفشل نتعلم الصبر وعندما نواجه العقبات نكتسب القوة وهكذا نصبح أكثر استعداداً لصناعة مستقبل مشرق كما أن للأمل دوراً مهماً في بناء المجتمعات عندما ينتشر التفاؤل بين الناس يزداد التعاون والتضامن وعندما نعمل معا بروح إيجابية نستطيع أن نحقق إنجازات عظيمة تفيد الجميع فالمستقبل ليس مسؤولية فرد واحد بل هو مسؤولية مشتركة بيننا جميعا أيها الحضور الكريم لنحلم نعم ولكن لنعمل أيضا لنثق بقدراتنا ولنساعد بعضنا البعض لنجعل من الأمل أسلوب حياة لا مجرد كلمة نرددها فكل يوم جديد هو فرصة جديدة وكل لحظة هي بداية محتملة لنجاح قادم وفي الختام تذكروا أن المستقبل يصنع اليوم وأن الأمل هو البذرة التي إذا زرعناها بالعزيمة والعمل أثمرت نجاحا وسعادة شكرا لحسن استماعكم والسلام عليكم ورحمة الله وبركاته ```
All 14 files (Euskara, Guarani, Yoruba, Afrikaans, Bengali, Chinese, isiZulu, Kiswahili, Russian, etc.): full plain-text transcriptions are in **eval_logs/whisperkit_aoiandroid_test_2026-03-17T13-41-58.186Z.log** in this repo. ### Quality notes - **English**: Stable long-form narration. - **Japanese**: High accuracy on news and narrative (test.mp3, 日本語.mp3). - **Korean, Chinese, Arabic, Russian**: Consistent recognition on long content. - **Multilingual**: Many segments reported as [en] by the model while source language was correctly transcribed. - **Bengali**: Some mixed script/errors. ### Reproduce ```bash cd TranslateBluePackage WHISPERKIT_TEST_AUDIO_DIR=/path/to/input/audio \ WHISPERKIT_TEST_LOG_DIR=/path/to/Log \ swift test --filter WhisperKitAOIAndroidModelTests ``` (Use `WhisperKitConfig(model: "openai_whisper-large-v3-v20240930_turbo_632MB", modelRepo: "aoiandroid/whisperkit-coreml")` in your Swift code.) Full transcription log: see the file under `eval_logs/` in this repo (e.g. `whisperkit_aoiandroid_test_2026-03-17T13-41-58.186Z.log`).