███╗   ███╗ ██╗ █████╗
████╗ ████║ ██║██╔══██╗
██╔████╔██║ ██║███████║
██║╚██╔╝██║ ██║██╔══██║
██║ ╚═╝ ██║ ██║██║  ██║
╚═╝     ╚═╝ ╚═╝╚═╝  ╚═╝

Mia STT

Mektup'un Kulakları — 99 Dilde Gerçek Zamanlı Konuşma Tanıma


Lisans Temel Model Dil Desteği Uygulama



👂 Mia STT Nedir?

Mia STT, Mektup mesajlaşma uygulamasının konuşma tanıma (Speech-to-Text) altyapısını güçlendiren çok dilli ASR modelidir.

Mektup'un sesli mesaj çeviri akışında ilk halka Mia STT'dir: kullanıcının sesi metne dönüştürülür, çeviri katmanına aktarılır ve son olarak Mia TTS tarafından alıcının dilinde yeniden seslendirilir.

Bu repo, OpenAI'ın whisper-large-v3-turbo model ağırlıklarını Apache 2.0 lisansı çerçevesinde barındırmaktadır.

Neden Turbo? Mektup, gerçek zamanlı sesli mesaj çevirisi yapan bir mesajlaşma uygulamasıdır. Gecikme (latency) doğrudan kullanıcı deneyimini etkiler. Whisper large-v3-turbo, large-v3 ile neredeyse aynı doğrulukta çalışırken çıkarım hızı açısından büyük bir avantaj sağlar — bu da Mektup gibi anlık iletişim uygulamaları için ideal bir tercih yapar.


✨ Öne Çıkan Özellikler

Özellik Detay
🌐 Dil Desteği 99 dil — transkripsiyon ve çeviri
Hız large-v3'e kıyasla çok daha hızlı çıkarım
🎯 Doğruluk large-v3 ile minimal kalite farkı
🏗️ Mimari Encoder-Decoder Transformer (Decoder: 4 katman)
🔊 Gürültü Dayanıklılığı Yüksek — gerçek ortam kayıtlarında güçlü performans
🕐 Zaman Damgası Kelime düzeyinde zaman damgası desteği
🎓 Eğitim Verisi 5M+ saat çok dilli ses kaydı

🔗 Mia Ekosistemindeki Yeri

Mia STT, Mektup'un üç katmanlı sesli mesaj çeviri pipeline'ının ilk halkasıdır:

┌─────────────────────────────────────────────────────┐
│                   Mektup Ses Akışı                  │
├────────────────┬──────────────────┬─────────────────┤
│   Mia STT      │   Mia Translate  │   Mia TTS       │
│                │                  │  ( Mia-TTS )    │
│                │                  │                 │
│  Ses → Metin   │  Metin → Metin   │  Metin → Ses    │
│                │  (çeviri)        │                 │
└────────────────┴──────────────────┴─────────────────┘
Adım Model Repo
1️⃣ Konuşma Tanıma Mia STT mektup-mia/Mia-STTbu repo
2️⃣ Metin Çevirisi Çeviri katmanı
3️⃣ Konuşma Sentezi Mia TTS mektup-mia/Mia-TTS

🗣️ Desteklenen Kullanım Senaryoları

Sesli Mesaj Transkripsiyonu (MVP — Aktif)

Mektup'un ilk sürümünde kullanıcının sesli mesajı Mia STT tarafından metne aktarılır. Bu metin çeviri katmanına girdi olarak iletilir ve ardından Mia TTS tarafından alıcının dilinde seslendirilir.

Sesli Mesaj Arama (Gelecek Sürüm)

Sohbet geçmişindeki sesli mesajların içeriğinde metin araması yapılabilmesi için sesli mesajların metne dönüştürülmesi planlanmaktadır.

Gerçek Zamanlı Altyazı (Gelecek Sürüm)

Sesli ve görüntülü aramalarda canlı transkripsiyon ve altyazı üretimi için Mia STT altyapıya dahil edilecektir.


🌐 Dil Öncelikleri

Mektup'un hedef kullanıcı kitlesi doğrultusunda aşağıdaki diller öncelikli test ve optimizasyon kapsamındadır:

Birincil: Türkçe · İngilizce · Arapça · Almanca · Fransızca
İkincil: Rusça · İspanyolca · Japonca · Korece · Çince
Geniş Kapsam: Whisper'ın desteklediği 99 dilin tamamı


⚙️ Teknik Mimari

Mia STT, OpenAI'ın Whisper large-v3-turbo mimarisini kullanır:

  • Mimari: Encoder-Decoder Transformer
  • Encoder: large-v3 ile özdeş — tam güç, sıfır taviz
  • Decoder: 32 katmandan 4 katmana indirilmiş — hız buradan gelir
  • Ses Formatı: 16 kHz, mono, 30 saniyelik pencereler
  • Görevler: Transkripsiyon · Dil tespiti · Zaman damgalama
  • VRAM: ~3 GB (large-v3'ün yaklaşık yarısı)

📋 Lisans ve Atıf

Bu model, Apache 2.0 lisansı altında dağıtılmaktadır.

⚠️ Lisans notu: openai/whisper-large-v3-turbo HuggingFace sayfasında MIT olarak listelenmektedir; ancak temel model openai/whisper-large-v3 Apache 2.0 lisanslıdır. Daha kısıtlayıcı olan temel modelin lisansına uyum sağlamak amacıyla bu repo Apache 2.0 olarak yayınlanmaktadır.

Model ağırlıkları OpenAI'ın openai/whisper-large-v3-turbo reposuna aittir. Mektup ekibi olarak bu açık kaynak çalışması için OpenAI araştırma ekibine teşekkür ederiz.

Akademik atıf için lütfen orijinal makaleyi kullanınız:

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356


⚠️ Kullanım Kısıtlamaları

Aşağıdaki kullanım amaçları kesinlikle yasaktır:

  • 🚫 Rıza alınmadan kişilerin ses kayıtlarının transkribe edilmesi
  • 🚫 Gözetleme, takip veya gizlilik ihlali amaçlı kullanım
  • 🚫 Yüksek riskli otomatik karar verme sistemlerinde tek başına kullanım
  • 🚫 Yasadışı veya etik dışı faaliyetler

Mektup, bu modeli yalnızca kullanıcının kendi başlattığı ve açık rıza ile gerçekleştirilen iletişim çeviri işlemleri için kullanmaktadır.


🔗 Bağlantılar

📱 Mektup Uygulaması mektup.app
🔊 Mia TTS mektup-mia/Mia-TTS
🤗 Temel Model openai/whisper-large-v3-turbo
📄 Araştırma Makalesi arXiv:2212.04356
💻 Whisper GitHub openai/whisper


Mia STT, Mektup'un sesli deneyimini güçlendirmek amacıyla derlenmiştir.
Dil sınırlarını ortadan kaldırmak için — herkes kendi dilinde konuşsun.


mektup-mia/Mia-STT · Apache 2.0 · openai/whisper-large-v3-turbo üzerine inşa edilmiştir

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for mektup-mia/Mia-STT

Finetuned
(841)
this model

Paper for mektup-mia/Mia-STT