███╗   ███╗ ██╗ █████╗
████╗ ████║ ██║██╔══██╗
██╔████╔██║ ██║███████║
██║╚██╔╝██║ ██║██╔══██║
██║ ╚═╝ ██║ ██║██║  ██║
╚═╝     ╚═╝ ╚═╝╚═╝  ╚═╝

Mia STT

Mektup'un Kulakları — 99 Dilde Gerçek Zamanlı Konuşma Tanıma

👂 Mia STT Nedir?

Mia STT, Mektup mesajlaşma uygulamasının konuşma tanıma (Speech-to-Text) altyapısını güçlendiren çok dilli ASR modelidir.

Mektup'un sesli mesaj çeviri akışında ilk halka Mia STT'dir: kullanıcının sesi metne dönüştürülür, çeviri katmanına aktarılır ve son olarak Mia TTS tarafından alıcının dilinde yeniden seslendirilir.

Bu repo, OpenAI'ın whisper-large-v3-turbo model ağırlıklarını Apache 2.0 lisansı çerçevesinde barındırmaktadır.

Neden Turbo? Mektup, gerçek zamanlı sesli mesaj çevirisi yapan bir mesajlaşma uygulamasıdır. Gecikme (latency) doğrudan kullanıcı deneyimini etkiler. Whisper large-v3-turbo, large-v3 ile neredeyse aynı doğrulukta çalışırken çıkarım hızı açısından büyük bir avantaj sağlar — bu da Mektup gibi anlık iletişim uygulamaları için ideal bir tercih yapar.

✨ Öne Çıkan Özellikler

Özellik	Detay
🌐 Dil Desteği	99 dil — transkripsiyon ve çeviri
⚡ Hız	large-v3'e kıyasla çok daha hızlı çıkarım
🎯 Doğruluk	large-v3 ile minimal kalite farkı
🏗️ Mimari	Encoder-Decoder Transformer (Decoder: 4 katman)
🔊 Gürültü Dayanıklılığı	Yüksek — gerçek ortam kayıtlarında güçlü performans
🕐 Zaman Damgası	Kelime düzeyinde zaman damgası desteği
🎓 Eğitim Verisi	5M+ saat çok dilli ses kaydı

🔗 Mia Ekosistemindeki Yeri

Mia STT, Mektup'un üç katmanlı sesli mesaj çeviri pipeline'ının ilk halkasıdır:

┌─────────────────────────────────────────────────────┐
│                   Mektup Ses Akışı                  │
├────────────────┬──────────────────┬─────────────────┤
│   Mia STT      │   Mia Translate  │   Mia TTS       │
│                │                  │  ( Mia-TTS )    │
│                │                  │                 │
│  Ses → Metin   │  Metin → Metin   │  Metin → Ses    │
│                │  (çeviri)        │                 │
└────────────────┴──────────────────┴─────────────────┘

Adım	Model	Repo
1️⃣ Konuşma Tanıma	Mia STT	`mektup-mia/Mia-STT` ← bu repo
2️⃣ Metin Çevirisi	Çeviri katmanı	—
3️⃣ Konuşma Sentezi	Mia TTS	`mektup-mia/Mia-TTS`

🗣️ Desteklenen Kullanım Senaryoları

Sesli Mesaj Transkripsiyonu (MVP — Aktif)

Mektup'un ilk sürümünde kullanıcının sesli mesajı Mia STT tarafından metne aktarılır. Bu metin çeviri katmanına girdi olarak iletilir ve ardından Mia TTS tarafından alıcının dilinde seslendirilir.

Sesli Mesaj Arama (Gelecek Sürüm)

Sohbet geçmişindeki sesli mesajların içeriğinde metin araması yapılabilmesi için sesli mesajların metne dönüştürülmesi planlanmaktadır.

Gerçek Zamanlı Altyazı (Gelecek Sürüm)

Sesli ve görüntülü aramalarda canlı transkripsiyon ve altyazı üretimi için Mia STT altyapıya dahil edilecektir.

🌐 Dil Öncelikleri

Mektup'un hedef kullanıcı kitlesi doğrultusunda aşağıdaki diller öncelikli test ve optimizasyon kapsamındadır:

Birincil: Türkçe · İngilizce · Arapça · Almanca · Fransızca
İkincil: Rusça · İspanyolca · Japonca · Korece · Çince
Geniş Kapsam: Whisper'ın desteklediği 99 dilin tamamı

⚙️ Teknik Mimari

Mia STT, OpenAI'ın Whisper large-v3-turbo mimarisini kullanır:

Mimari: Encoder-Decoder Transformer
Encoder: large-v3 ile özdeş — tam güç, sıfır taviz
Decoder: 32 katmandan 4 katmana indirilmiş — hız buradan gelir
Ses Formatı: 16 kHz, mono, 30 saniyelik pencereler
Görevler: Transkripsiyon · Dil tespiti · Zaman damgalama
VRAM: ~3 GB (large-v3'ün yaklaşık yarısı)

📋 Lisans ve Atıf

Bu model, Apache 2.0 lisansı altında dağıtılmaktadır.

⚠️ Lisans notu: openai/whisper-large-v3-turbo HuggingFace sayfasında MIT olarak listelenmektedir; ancak temel model openai/whisper-large-v3 Apache 2.0 lisanslıdır. Daha kısıtlayıcı olan temel modelin lisansına uyum sağlamak amacıyla bu repo Apache 2.0 olarak yayınlanmaktadır.

Model ağırlıkları OpenAI'ın openai/whisper-large-v3-turbo reposuna aittir. Mektup ekibi olarak bu açık kaynak çalışması için OpenAI araştırma ekibine teşekkür ederiz.

Akademik atıf için lütfen orijinal makaleyi kullanınız:

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356

⚠️ Kullanım Kısıtlamaları

Aşağıdaki kullanım amaçları kesinlikle yasaktır:

🚫 Rıza alınmadan kişilerin ses kayıtlarının transkribe edilmesi
🚫 Gözetleme, takip veya gizlilik ihlali amaçlı kullanım
🚫 Yüksek riskli otomatik karar verme sistemlerinde tek başına kullanım
🚫 Yasadışı veya etik dışı faaliyetler

Mektup, bu modeli yalnızca kullanıcının kendi başlattığı ve açık rıza ile gerçekleştirilen iletişim çeviri işlemleri için kullanmaktadır.

🔗 Bağlantılar


📱 Mektup Uygulaması	mektup.app
🔊 Mia TTS	mektup-mia/Mia-TTS
🤗 Temel Model	openai/whisper-large-v3-turbo
📄 Araştırma Makalesi	arXiv:2212.04356
💻 Whisper GitHub	openai/whisper

Mia STT, Mektup'un sesli deneyimini güçlendirmek amacıyla derlenmiştir.
Dil sınırlarını ortadan kaldırmak için — herkes kendi dilinde konuşsun.

mektup-mia/Mia-STT · Apache 2.0 · openai/whisper-large-v3-turbo üzerine inşa edilmiştir

Downloads last month: -; Downloads are not tracked for this model. How to track

Model tree for mektup-mia/Mia-STT

Base model

openai/whisper-large-v3

Finetuned

(875)

this model

Paper for mektup-mia/Mia-STT

Robust Speech Recognition via Large-Scale Weak Supervision

Paper • 2212.04356 • Published Dec 6, 2022 • 55