Automatic Speech Recognition
Transformers
Safetensors
qwen3_asr
text-generation
speech-to-text
asr
multilingual
audio
vllm
qwen
Instructions to use Jetlink/JetlinkSTT-3-1.7B with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Jetlink/JetlinkSTT-3-1.7B with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("automatic-speech-recognition", model="Jetlink/JetlinkSTT-3-1.7B")# Load model directly from transformers import AutoModelForSeq2SeqLM model = AutoModelForSeq2SeqLM.from_pretrained("Jetlink/JetlinkSTT-3-1.7B", dtype="auto") - Notebooks
- Google Colab
- Kaggle
| license: apache-2.0 | |
| library_name: transformers | |
| tags: | |
| - automatic-speech-recognition | |
| - speech-to-text | |
| - asr | |
| - multilingual | |
| - audio | |
| - transformers | |
| - vllm | |
| - qwen | |
| pipeline_tag: automatic-speech-recognition | |
| base_model: Qwen/Qwen3-ASR-1.7B | |
| # JetlinkSTT-3-1.7B | |
| This repository hosts an organization-managed copy of **JetlinkSTT-3-1.7B** for speech recognition and language identification workloads. | |
| It is intended for teams that want to manage deployment, access, and internal distribution from their own namespace while preserving compatibility with the upstream model ecosystem. | |
| ## Model Summary | |
| JetlinkSTT-3-1.7B is a multilingual automatic speech recognition model designed for: | |
| - **speech-to-text (ASR)** | |
| - **language identification (LID)** | |
| - **offline inference** | |
| - **streaming inference** | |
| - **long-audio transcription** | |
| This model is based on the Qwen3-ASR family and is suitable for enterprise-grade transcription and speech understanding workflows. | |
| ## Key Features | |
| - **Automatic speech recognition** for multilingual audio | |
| - **Language identification** support | |
| - **Streaming and offline unified inference** | |
| - Strong robustness under: | |
| - noisy environments | |
| - challenging text patterns | |
| - singing voice | |
| - songs with background music | |
| - Suitable for both research and production-oriented speech pipelines | |
| ## Language Support | |
| The upstream Qwen3-ASR family supports **52 languages and dialects**, including **30 languages** and **22 Chinese dialects**. | |
| Core language coverage includes: | |
| - Chinese | |
| - English | |
| - Cantonese | |
| - Arabic | |
| - German | |
| - French | |
| - Spanish | |
| - Portuguese | |
| - Indonesian | |
| - Italian | |
| - Korean | |
| - Russian | |
| - Thai | |
| - Vietnamese | |
| - Japanese | |
| - Turkish | |
| - Hindi | |
| - Malay | |
| - Dutch | |
| - Swedish | |
| - Danish | |
| - Finnish | |
| - Polish | |
| - Czech | |
| - Filipino | |
| - Persian | |
| - Greek | |
| - Hungarian | |
| - Macedonian | |
| - Romanian | |
| The upstream family also supports multiple Chinese dialects and regional speech variations. | |
| ## Intended Use | |
| This model is suitable for: | |
| - multilingual speech transcription | |
| - call center transcription | |
| - meeting transcription | |
| - subtitle generation | |
| - voice assistant backends | |
| - speech analytics pipelines | |
| - speech data preprocessing | |
| - research and benchmarking | |
| ## Model Details | |
| ### Architecture | |
| JetlinkSTT-3-1.7B is based on **Qwen/Qwen3-ASR-1.7B**, part of the **Qwen3-ASR** family. | |
| According to the upstream model card, the Qwen3-ASR family: | |
| - leverages large-scale speech training data | |
| - builds on the audio understanding capability of **Qwen3-Omni** | |
| - supports unified streaming and offline inference | |
| - is accompanied by a broader inference toolkit with support for batch inference, asynchronous serving, streaming, and timestamp-related workflows | |
| ## Hardware Requirements | |
| > This model is not intended to be described with a single universal minimum hardware requirement. | |
| Actual requirements depend on: | |
| - inference backend | |
| - batch size | |
| - audio duration | |
| - concurrency | |
| - streaming vs offline mode | |
| - latency targets | |
| - memory overhead from the serving framework | |
| ### Minimum System Requirements | |
| > The upstream model card does not define a single universal minimum VRAM requirement. Actual memory usage depends on the inference backend, audio duration, batch size, concurrency, streaming mode, and runtime configuration. | |
| Estimated memory guidance for JetlinkSTT-3-1.7B: | |
| - **Theoretical model weight footprint (BF16 / FP16):** approximately **3.4 GB VRAM** | |
| - **Estimated practical minimum for light GPU inference:** **8 GB VRAM** | |
| - **Recommended for smoother development and local testing:** **12–16 GB VRAM** | |
| - **Recommended for production or higher-concurrency deployments:** datacenter-class GPUs | |
| > Note: the values above are practical estimates, not hard universal limits. Real memory consumption can increase depending on longer audio inputs, larger batch sizes, streaming usage, and backend overhead. | |
| ### Reference Hardware | |
| For practical deployment planning: | |
| - **Development / light testing:** high-memory single GPU environments may be sufficient for basic experiments, depending on runtime settings | |
| - **Production-oriented serving:** modern datacenter GPUs are recommended | |
| - **Higher concurrency / lower latency deployments:** vLLM-backed or similarly optimized serving setups are recommended | |
| ### Practical Recommendation | |
| For most teams: | |
| 1. start with isolated benchmarking | |
| 2. measure latency with your real audio durations | |
| 3. validate concurrency needs before production rollout | |
| 4. use optimized serving stacks when streaming or higher throughput is required | |
| ## Software Requirements | |
| Recommended environment: | |
| - Python 3.12 | |
| - Linux | |
| - CUDA-enabled GPU environment | |
| - One of the following workflows: | |
| - Transformers-based usage | |
| - `qwen-asr` | |
| - `qwen-asr[vllm]` | |
| Common dependencies may include: | |
| - `torch` | |
| - `transformers` | |
| - `qwen-asr` | |
| - `flash-attn` for improved speed and reduced memory usage where supported | |
| ## Quickstart | |
| Recommended environment setup: | |
| conda create -n jetlinkstt python=3.12 -y | |
| conda activate jetlinkstt | |
| Minimal installation: | |
| pip install -U qwen-asr | |
| For faster inference and streaming support: | |
| pip install -U qwen-asr[vllm] | |
| Optional acceleration: | |
| pip install -U flash-attn --no-build-isolation | |
| If your machine has limited RAM and many CPU cores: | |
| MAX_JOBS=4 pip install -U flash-attn --no-build-isolation | |
| ## Example Usage | |
| Basic usage should follow the upstream Qwen3-ASR inference flow, adapted to your deployment environment and model path. | |
| Example model reference: | |
| Jetlink/JetlinkSTT-3-1.7B | |
| ## Serving Notes | |
| This model is suitable for: | |
| - batch transcription | |
| - asynchronous serving | |
| - streaming speech recognition | |
| - enterprise speech pipelines | |
| For production deployments, consider: | |
| - request queueing | |
| - audio chunking strategy | |
| - streaming transport design | |
| - observability and latency monitoring | |
| - GPU memory profiling | |
| - concurrency benchmarking | |
| ## Strengths | |
| - multilingual ASR support | |
| - language identification capability | |
| - unified streaming and offline inference | |
| - strong robustness in difficult acoustic environments | |
| - support for long-audio transcription | |
| - suitable for enterprise speech workloads | |
| ## Limitations | |
| - infrastructure needs depend heavily on concurrency and audio duration | |
| - production serving characteristics vary by backend | |
| - streaming deployments require additional engineering around chunking and transport | |
| - real-world latency depends on model backend, hardware, and workload pattern | |
| ## Out-of-Scope / Cautionary Use | |
| Outputs should be reviewed before use in: | |
| - legal transcription without verification | |
| - medical transcription without human review | |
| - safety-critical voice workflows | |
| - automated decisions based solely on raw transcription | |
| - highly sensitive compliance scenarios without validation | |
| Human review and downstream verification are strongly recommended. | |
| ## License | |
| This repository follows the same license as the upstream release. | |
| - **License:** Apache-2.0 | |
| If you redistribute, fine-tune, quantize, or otherwise modify this model, make sure your usage remains compliant with the upstream license and attribution requirements. | |
| ## Attribution | |
| Original upstream model: | |
| - `Qwen/Qwen3-ASR-1.7B` | |
| This repository is an organization-managed copy and is **not the original upstream source**. | |
| ## Citation | |
| Please cite the original Qwen3-ASR release when using this model in research, evaluation, or production documentation. | |
| ## Disclaimer | |
| This repository may include packaging, naming, or deployment-oriented changes for organizational use. | |
| For official updates, benchmark details, and upstream release notes, refer to the original Qwen model card. | |
| --- | |
| # JetlinkSTT-3-1.7B (Türkçe) | |
| Bu depo, konuşmadan metne dönüştürme ve dil tanıma iş yükleri için **JetlinkSTT-3-1.7B** modelinin kurum tarafından yönetilen bir kopyasını barındırır. | |
| Bu depo; modeli kendi namespace’i altında yönetmek, erişimi kontrol etmek ve dağıtımı kolaylaştırmak isteyen ekipler için hazırlanmıştır. Amaç, upstream model ekosistemiyle uyumluluğu koruyarak kurumsal kullanım sağlamaktır. | |
| ## Model Özeti | |
| JetlinkSTT-3-1.7B, aşağıdaki kullanım alanlarına yönelik çok dilli bir otomatik konuşma tanıma modelidir: | |
| - **speech-to-text (ASR)** | |
| - **language identification (LID)** | |
| - **offline inference** | |
| - **streaming inference** | |
| - **uzun ses kayıtlarının transkripsiyonu** | |
| Bu model, Qwen3-ASR ailesi temel alınarak hazırlanmıştır ve kurumsal seviyede konuşma tanıma iş akışları için uygundur. | |
| ## Temel Özellikler | |
| - Çok dilli **otomatik konuşma tanıma** | |
| - **Dil tanıma** desteği | |
| - **Streaming ve offline birleşik inference** | |
| - Aşağıdaki koşullarda güçlü dayanıklılık: | |
| - gürültülü ortamlar | |
| - zor metin örüntüleri | |
| - şarkı söyleme sesi | |
| - arka plan müzikli şarkılar | |
| - Hem araştırma hem de production odaklı konuşma iş akışları için uygundur | |
| ## Dil Desteği | |
| Upstream Qwen3-ASR ailesi **52 dil ve lehçe** desteği sunar. Buna **30 dil** ve **22 Çince lehçe** dahildir. | |
| Başlıca desteklenen diller: | |
| - Çince | |
| - İngilizce | |
| - Kantonca | |
| - Arapça | |
| - Almanca | |
| - Fransızca | |
| - İspanyolca | |
| - Portekizce | |
| - Endonezce | |
| - İtalyanca | |
| - Korece | |
| - Rusça | |
| - Tayca | |
| - Vietnamca | |
| - Japonca | |
| - Türkçe | |
| - Hintçe | |
| - Malayca | |
| - Hollandaca | |
| - İsveççe | |
| - Danca | |
| - Fince | |
| - Lehçe | |
| - Çekçe | |
| - Filipince | |
| - Farsça | |
| - Yunanca | |
| - Macarca | |
| - Makedonca | |
| - Romence | |
| Upstream aile ayrıca çeşitli Çince lehçeleri ve bölgesel konuşma varyasyonlarını da destekler. | |
| ## Kullanım Amacı | |
| Bu model aşağıdaki senaryolar için uygundur: | |
| - çok dilli konuşma transkripsiyonu | |
| - çağrı merkezi konuşmalarının yazıya dökülmesi | |
| - toplantı transkripsiyonu | |
| - altyazı üretimi | |
| - sesli asistan altyapıları | |
| - konuşma analitiği süreçleri | |
| - konuşma verisi ön işleme | |
| - araştırma ve benchmark çalışmaları | |
| ## Model Detayları | |
| ### Mimari | |
| JetlinkSTT-3-1.7B, **Qwen/Qwen3-ASR-1.7B** tabanlıdır ve **Qwen3-ASR** ailesinin bir parçasını temel alır. | |
| Upstream model kartına göre Qwen3-ASR ailesi: | |
| - büyük ölçekli konuşma verileriyle eğitilmiştir | |
| - **Qwen3-Omni** modelinin ses anlama kabiliyetinden yararlanır | |
| - birleşik streaming ve offline inference destekler | |
| - batch inference, asynchronous serving, streaming ve timestamp odaklı iş akışlarını destekleyen daha geniş bir inference toolkit ile birlikte gelir | |
| ### Minimum Sistem Gereksinimleri | |
| > Upstream model kartı tek ve evrensel bir minimum VRAM gereksinimi belirtmez. Gerçek bellek kullanımı; inference backend’ine, ses uzunluğuna, batch size’a, concurrency seviyesine, streaming moduna ve runtime ayarlarına göre değişir. | |
| JetlinkSTT-3-1.7B için tahmini bellek rehberi: | |
| - **Teorik model ağırlık boyutu (BF16 / FP16):** yaklaşık **3.4 GB VRAM** | |
| - **Hafif GPU inference için tahmini pratik minimum:** **8 GB VRAM** | |
| - **Daha rahat geliştirme ve local test için önerilen:** **12–16 GB VRAM** | |
| - **Production veya daha yüksek concurrency gereken dağıtımlar için önerilen:** datacenter sınıfı GPU’lar | |
| > Not: yukarıdaki değerler kesin ve evrensel sınırlar değil, pratik tahminlerdir. Daha uzun ses girdileri, daha büyük batch size, streaming kullanımı ve backend kaynaklı ek yükler gerçek bellek tüketimini artırabilir. | |
| ## Donanım Gereksinimleri | |
| > Bu model için tek ve evrensel bir minimum donanım gereksinimi vermek doğru değildir. | |
| Gerçek ihtiyaçlar şunlara bağlıdır: | |
| - kullanılan inference backend’i | |
| - batch size | |
| - ses uzunluğu | |
| - concurrency | |
| - streaming veya offline kullanım | |
| - gecikme hedefleri | |
| - serving framework kaynaklı bellek yükü | |
| ### Referans Donanım | |
| Pratik dağıtım planlaması için: | |
| - **Geliştirme / hafif test:** runtime ayarlarına bağlı olarak yüksek belleğe sahip tek GPU ortamları temel denemeler için yeterli olabilir | |
| - **Production odaklı serving:** modern datacenter GPU’lar önerilir | |
| - **Daha yüksek concurrency / daha düşük latency gereken dağıtımlar:** vLLM tabanlı veya benzeri optimize serving yapıları önerilir | |
| ### Pratik Öneri | |
| Çoğu ekip için en mantıklı yaklaşım: | |
| 1. önce izole benchmark almak | |
| 2. gerçek ses uzunluklarıyla latency ölçmek | |
| 3. production öncesi concurrency ihtiyacını doğrulamak | |
| 4. streaming veya yüksek throughput gerekiyorsa optimize serving stack kullanmak | |
| ## Yazılım Gereksinimleri | |
| Önerilen ortam: | |
| - Python 3.12 | |
| - Linux | |
| - CUDA destekli GPU ortamı | |
| - Aşağıdaki iş akışlarından biri: | |
| - Transformers tabanlı kullanım | |
| - `qwen-asr` | |
| - `qwen-asr[vllm]` | |
| Yaygın bağımlılıklar şunları içerebilir: | |
| - `torch` | |
| - `transformers` | |
| - `qwen-asr` | |
| - uygun olduğunda hız ve bellek optimizasyonu için `flash-attn` | |
| ## Hızlı Başlangıç | |
| Önerilen ortam kurulumu: | |
| conda create -n jetlinkstt python=3.12 -y | |
| conda activate jetlinkstt | |
| Minimum kurulum: | |
| pip install -U qwen-asr | |
| Daha hızlı inference ve streaming desteği için: | |
| pip install -U qwen-asr[vllm] | |
| İsteğe bağlı hızlandırma: | |
| pip install -U flash-attn --no-build-isolation | |
| Makinede RAM düşük ama CPU core sayısı fazlaysa: | |
| MAX_JOBS=4 pip install -U flash-attn --no-build-isolation | |
| ## Örnek Kullanım | |
| Temel kullanım, upstream Qwen3-ASR inference akışına göre ve kendi deployment ortamına uyarlanarak yapılmalıdır. | |
| Örnek model referansı: | |
| Jetlink/JetlinkSTT-3-1.7B | |
| ## Serving Notları | |
| Bu model aşağıdaki kullanım türleri için uygundur: | |
| - batch transcription | |
| - asynchronous serving | |
| - streaming speech recognition | |
| - kurumsal konuşma iş akışları | |
| Production dağıtımlarında şunlar değerlendirilmelidir: | |
| - request queueing | |
| - audio chunking stratejisi | |
| - streaming transport tasarımı | |
| - gözlemlenebilirlik ve latency takibi | |
| - GPU bellek profillemesi | |
| - concurrency benchmark’ları | |
| ## Güçlü Yönler | |
| - çok dilli ASR desteği | |
| - dil tanıma kabiliyeti | |
| - birleşik streaming ve offline inference | |
| - zorlu akustik ortamlarda güçlü dayanıklılık | |
| - uzun ses kayıtlarının transkripsiyonuna uygunluk | |
| - kurumsal konuşma iş yükleri için uygun yapı | |
| ## Sınırlamalar | |
| - altyapı ihtiyacı concurrency ve ses uzunluğuna göre ciddi şekilde değişir | |
| - production serving karakteristiği kullanılan backend’e göre değişir | |
| - streaming dağıtımlarında chunking ve taşıma katmanı için ek mühendislik gerekir | |
| - gerçek dünya gecikmesi; backend, donanım ve iş yükü desenine bağlıdır | |
| ## Kapsam Dışı / Dikkat Gerektiren Kullanımlar | |
| Model çıktıları şu senaryolarda insan kontrolü olmadan kullanılmamalıdır: | |
| - doğrulamasız hukuki transkripsiyon | |
| - insan incelemesi olmadan tıbbi transkripsiyon | |
| - güvenlik kritik ses iş akışları | |
| - yalnızca ham transkripsiyona dayalı otomatik kararlar | |
| - doğrulama olmadan yüksek hassasiyetli uyumluluk senaryoları | |
| İnsan incelemesi ve aşağı akış doğrulama mekanizmaları güçlü şekilde önerilir. | |
| ## Lisans | |
| Bu depo, upstream sürümle aynı lisansı takip eder. | |
| - **Lisans:** Apache-2.0 | |
| Modeli yeniden dağıtıyor, fine-tune ediyor, quantize ediyor veya başka şekilde değiştiriyorsan; kullanımının upstream lisans ve attribution gereklilikleriyle uyumlu olduğundan emin olmalısın. | |
| ## Atıf | |
| Orijinal upstream model: | |
| - `Qwen/Qwen3-ASR-1.7B` | |
| Bu depo, kurum tarafından yönetilen bir kopyadır ve **orijinal upstream kaynak değildir**. | |
| ## Atıf / Citation | |
| Bu modeli araştırma, değerlendirme veya production dokümantasyonunda kullanıyorsan, lütfen orijinal Qwen3-ASR sürümüne atıf yap. | |
| ## Feragatname | |
| Bu depo, kurumsal kullanım amacıyla paketleme, isimlendirme veya dağıtım odaklı bazı değişiklikler içerebilir. | |
| Resmi güncellemeler, benchmark detayları ve upstream sürüm notları için orijinal Qwen model kartına bakılmalıdır. |