███╗ ███╗ ██╗ █████╗
████╗ ████║ ██║██╔══██╗
██╔████╔██║ ██║███████║
██║╚██╔╝██║ ██║██╔══██║
██║ ╚═╝ ██║ ██║██║ ██║
╚═╝ ╚═╝ ╚═╝╚═╝ ╚═╝
Mia STT
Mektup'un Kulakları — 99 Dilde Gerçek Zamanlı Konuşma Tanıma
👂 Mia STT Nedir?
Mia STT, Mektup mesajlaşma uygulamasının konuşma tanıma (Speech-to-Text) altyapısını güçlendiren çok dilli ASR modelidir.
Mektup'un sesli mesaj çeviri akışında ilk halka Mia STT'dir: kullanıcının sesi metne dönüştürülür, çeviri katmanına aktarılır ve son olarak Mia TTS tarafından alıcının dilinde yeniden seslendirilir.
Bu repo, OpenAI'ın whisper-large-v3-turbo model ağırlıklarını Apache 2.0 lisansı çerçevesinde barındırmaktadır.
Neden Turbo? Mektup, gerçek zamanlı sesli mesaj çevirisi yapan bir mesajlaşma uygulamasıdır. Gecikme (latency) doğrudan kullanıcı deneyimini etkiler. Whisper large-v3-turbo, large-v3 ile neredeyse aynı doğrulukta çalışırken çıkarım hızı açısından büyük bir avantaj sağlar — bu da Mektup gibi anlık iletişim uygulamaları için ideal bir tercih yapar.
✨ Öne Çıkan Özellikler
| Özellik | Detay |
|---|---|
| 🌐 Dil Desteği | 99 dil — transkripsiyon ve çeviri |
| ⚡ Hız | large-v3'e kıyasla çok daha hızlı çıkarım |
| 🎯 Doğruluk | large-v3 ile minimal kalite farkı |
| 🏗️ Mimari | Encoder-Decoder Transformer (Decoder: 4 katman) |
| 🔊 Gürültü Dayanıklılığı | Yüksek — gerçek ortam kayıtlarında güçlü performans |
| 🕐 Zaman Damgası | Kelime düzeyinde zaman damgası desteği |
| 🎓 Eğitim Verisi | 5M+ saat çok dilli ses kaydı |
🔗 Mia Ekosistemindeki Yeri
Mia STT, Mektup'un üç katmanlı sesli mesaj çeviri pipeline'ının ilk halkasıdır:
┌─────────────────────────────────────────────────────┐
│ Mektup Ses Akışı │
├────────────────┬──────────────────┬─────────────────┤
│ Mia STT │ Mia Translate │ Mia TTS │
│ │ │ ( Mia-TTS ) │
│ │ │ │
│ Ses → Metin │ Metin → Metin │ Metin → Ses │
│ │ (çeviri) │ │
└────────────────┴──────────────────┴─────────────────┘
| Adım | Model | Repo |
|---|---|---|
| 1️⃣ Konuşma Tanıma | Mia STT | mektup-mia/Mia-STT ← bu repo |
| 2️⃣ Metin Çevirisi | Çeviri katmanı | — |
| 3️⃣ Konuşma Sentezi | Mia TTS | mektup-mia/Mia-TTS |
🗣️ Desteklenen Kullanım Senaryoları
Sesli Mesaj Transkripsiyonu (MVP — Aktif)
Mektup'un ilk sürümünde kullanıcının sesli mesajı Mia STT tarafından metne aktarılır. Bu metin çeviri katmanına girdi olarak iletilir ve ardından Mia TTS tarafından alıcının dilinde seslendirilir.
Sesli Mesaj Arama (Gelecek Sürüm)
Sohbet geçmişindeki sesli mesajların içeriğinde metin araması yapılabilmesi için sesli mesajların metne dönüştürülmesi planlanmaktadır.
Gerçek Zamanlı Altyazı (Gelecek Sürüm)
Sesli ve görüntülü aramalarda canlı transkripsiyon ve altyazı üretimi için Mia STT altyapıya dahil edilecektir.
🌐 Dil Öncelikleri
Mektup'un hedef kullanıcı kitlesi doğrultusunda aşağıdaki diller öncelikli test ve optimizasyon kapsamındadır:
Birincil: Türkçe · İngilizce · Arapça · Almanca · Fransızca
İkincil: Rusça · İspanyolca · Japonca · Korece · Çince
Geniş Kapsam: Whisper'ın desteklediği 99 dilin tamamı
⚙️ Teknik Mimari
Mia STT, OpenAI'ın Whisper large-v3-turbo mimarisini kullanır:
- Mimari: Encoder-Decoder Transformer
- Encoder: large-v3 ile özdeş — tam güç, sıfır taviz
- Decoder: 32 katmandan 4 katmana indirilmiş — hız buradan gelir
- Ses Formatı: 16 kHz, mono, 30 saniyelik pencereler
- Görevler: Transkripsiyon · Dil tespiti · Zaman damgalama
- VRAM: ~3 GB (large-v3'ün yaklaşık yarısı)
📋 Lisans ve Atıf
Bu model, Apache 2.0 lisansı altında dağıtılmaktadır.
⚠️ Lisans notu:
openai/whisper-large-v3-turboHuggingFace sayfasında MIT olarak listelenmektedir; ancak temel modelopenai/whisper-large-v3Apache 2.0 lisanslıdır. Daha kısıtlayıcı olan temel modelin lisansına uyum sağlamak amacıyla bu repo Apache 2.0 olarak yayınlanmaktadır.
Model ağırlıkları OpenAI'ın openai/whisper-large-v3-turbo reposuna aittir. Mektup ekibi olarak bu açık kaynak çalışması için OpenAI araştırma ekibine teşekkür ederiz.
Akademik atıf için lütfen orijinal makaleyi kullanınız:
Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356
⚠️ Kullanım Kısıtlamaları
Aşağıdaki kullanım amaçları kesinlikle yasaktır:
- 🚫 Rıza alınmadan kişilerin ses kayıtlarının transkribe edilmesi
- 🚫 Gözetleme, takip veya gizlilik ihlali amaçlı kullanım
- 🚫 Yüksek riskli otomatik karar verme sistemlerinde tek başına kullanım
- 🚫 Yasadışı veya etik dışı faaliyetler
Mektup, bu modeli yalnızca kullanıcının kendi başlattığı ve açık rıza ile gerçekleştirilen iletişim çeviri işlemleri için kullanmaktadır.
🔗 Bağlantılar
| 📱 Mektup Uygulaması | mektup.app |
| 🔊 Mia TTS | mektup-mia/Mia-TTS |
| 🤗 Temel Model | openai/whisper-large-v3-turbo |
| 📄 Araştırma Makalesi | arXiv:2212.04356 |
| 💻 Whisper GitHub | openai/whisper |
Mia STT, Mektup'un sesli deneyimini güçlendirmek amacıyla derlenmiştir.
Dil sınırlarını ortadan kaldırmak için — herkes kendi dilinde konuşsun.
mektup-mia/Mia-STT · Apache 2.0 · openai/whisper-large-v3-turbo üzerine inşa edilmiştir
Model tree for mektup-mia/Mia-STT
Base model
openai/whisper-large-v3