rezanaltjetlink commited on
Commit
7959d62
·
verified ·
1 Parent(s): 793648b

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +634 -0
README.md ADDED
@@ -0,0 +1,634 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ library_name: transformers
4
+ tags:
5
+ - text-to-speech
6
+ - tts
7
+ - multilingual
8
+ - voice-cloning
9
+ - voice-design
10
+ - audio
11
+ - diffusion
12
+ - transformers
13
+ pipeline_tag: text-to-speech
14
+ base_model: openbmb/VoxCPM2
15
+ ---
16
+
17
+ # JetlinkTTS
18
+
19
+ This repository hosts an organization-managed copy of **JetlinkTTS** for multilingual text-to-speech, voice cloning, and controllable voice design workloads.
20
+
21
+ It is intended for teams that want to manage deployment, access, and internal distribution from their own namespace while preserving compatibility with the upstream model ecosystem.
22
+
23
+ ## Model Summary
24
+
25
+ JetlinkTTS is based on **VoxCPM2**, a tokenizer-free diffusion autoregressive text-to-speech model built for expressive multilingual speech generation. The upstream model card describes it as a **2B-parameter** model supporting **30 languages**, with **48kHz audio output**, trained on **over 2 million hours of multilingual speech data**. It also supports **voice cloning**, **voice design**, **streaming generation**, and **context-aware synthesis**. :contentReference[oaicite:1]{index=1}
26
+
27
+ ## Key Features
28
+
29
+ - **Multilingual text-to-speech** across 30 supported languages
30
+ - **Voice Design** from natural-language voice descriptions
31
+ - **Controllable Voice Cloning** from short reference audio
32
+ - **Ultimate Cloning** using reference audio plus transcript for higher fidelity
33
+ - **48kHz studio-quality output**
34
+ - **Streaming generation**
35
+ - **Context-aware prosody and expressiveness**
36
+ - **Commercial-friendly Apache-2.0 license** :contentReference[oaicite:2]{index=2}
37
+
38
+ ## Supported Languages
39
+
40
+ According to the upstream model card, VoxCPM2 supports the following **30 languages**:
41
+
42
+ - Arabic
43
+ - Burmese
44
+ - Chinese
45
+ - Danish
46
+ - Dutch
47
+ - English
48
+ - Finnish
49
+ - French
50
+ - German
51
+ - Greek
52
+ - Hebrew
53
+ - Hindi
54
+ - Indonesian
55
+ - Italian
56
+ - Japanese
57
+ - Khmer
58
+ - Korean
59
+ - Lao
60
+ - Malay
61
+ - Norwegian
62
+ - Polish
63
+ - Portuguese
64
+ - Russian
65
+ - Spanish
66
+ - Swahili
67
+ - Swedish
68
+ - Tagalog
69
+ - Thai
70
+ - Turkish
71
+ - Vietnamese
72
+
73
+ The upstream model card also lists support for several Chinese dialects, including:
74
+
75
+ - 四川话
76
+ - 粤语
77
+ - 吴语
78
+ - 东北话
79
+ - 河南话
80
+ - 陕西话
81
+ - 山东话
82
+ - 天津话
83
+ - 闽南话 :contentReference[oaicite:3]{index=3}
84
+
85
+ ## Intended Use
86
+
87
+ This model is suitable for:
88
+
89
+ - multilingual speech synthesis
90
+ - narration and audiobook generation
91
+ - voice assistant backends
92
+ - voice cloning workflows
93
+ - creative voice design
94
+ - subtitle dubbing and localization
95
+ - conversational TTS pipelines
96
+ - research and benchmarking :contentReference[oaicite:4]{index=4}
97
+
98
+ ## Model Details
99
+
100
+ ### Architecture
101
+
102
+ The upstream model card describes VoxCPM2 as:
103
+
104
+ - **Architecture:** Tokenizer-free Diffusion Autoregressive (LocEnc → TSLM → RALM → LocDiT)
105
+ - **Backbone:** Based on MiniCPM-4
106
+ - **Total parameters:** 2B
107
+ - **Audio VAE:** AudioVAE V2
108
+ - **Reference input:** 16kHz
109
+ - **Output audio:** 48kHz
110
+ - **Maximum sequence length:** 8192 tokens
111
+ - **Default dtype:** bfloat16 :contentReference[oaicite:5]{index=5}
112
+
113
+ ## Hardware Requirements
114
+
115
+ > This model does not have a single universal minimum hardware requirement for all usage scenarios.
116
+
117
+ Actual requirements depend on:
118
+
119
+ - inference backend
120
+ - text length
121
+ - streaming vs offline mode
122
+ - voice cloning usage
123
+ - concurrency
124
+ - latency target
125
+ - runtime configuration :contentReference[oaicite:6]{index=6}
126
+
127
+ ### Minimum System Requirements
128
+
129
+ The upstream model card explicitly reports **~8 GB VRAM** in the model details section. It also lists the core software requirements as **Python ≥ 3.10**, **PyTorch ≥ 2.5.0**, and **CUDA ≥ 12.0**. :contentReference[oaicite:7]{index=7}
130
+
131
+ Practical memory guidance for JetlinkTTS:
132
+
133
+ - **Estimated practical minimum VRAM:** **~8 GB**
134
+ - **Recommended for smoother local development and testing:** **12–16 GB VRAM**
135
+ - **Recommended for production or higher concurrency:** modern datacenter-class GPUs
136
+
137
+ > Note: real memory usage can increase depending on text length, cloning mode, streaming usage, batch size, and backend overhead. The values above should be treated as practical guidance rather than hard universal limits. :contentReference[oaicite:8]{index=8}
138
+
139
+ ### Reference Hardware
140
+
141
+ For practical deployment planning:
142
+
143
+ - **Development / light testing:** a single modern GPU with around **8 GB VRAM or higher** may be sufficient
144
+ - **Smoother local experimentation:** **12–16 GB VRAM**
145
+ - **Production-oriented serving:** modern datacenter GPUs are recommended
146
+ - **Lower latency / higher throughput serving:** optimized inference stacks should be considered :contentReference[oaicite:9]{index=9}
147
+
148
+ ## Software Requirements
149
+
150
+ Recommended environment:
151
+
152
+ - **Python 3.10 or newer**
153
+ - **PyTorch 2.5.0 or newer**
154
+ - **CUDA 12.0 or newer**
155
+ - Linux recommended for deployment
156
+ - `voxcpm` package for upstream usage :contentReference[oaicite:10]{index=10}
157
+
158
+ Common dependencies may include:
159
+
160
+ - `torch`
161
+ - `soundfile`
162
+ - `voxcpm`
163
+
164
+ ## Quickstart
165
+
166
+ Install the upstream package:
167
+
168
+ pip install voxcpm
169
+
170
+ Basic usage:
171
+
172
+ import soundfile as sf
173
+ from voxcpm import VoxCPM
174
+
175
+ model = VoxCPM.from_pretrained("Jetlink/JetlinkTTS", load_denoiser=False)
176
+
177
+ wav = model.generate(
178
+ text="JetlinkTTS delivers expressive multilingual speech generation.",
179
+ cfg_value=2.0,
180
+ inference_timesteps=10,
181
+ )
182
+
183
+ sf.write("output.wav", wav, model.tts_model.sample_rate)
184
+
185
+ ## Voice Design Example
186
+
187
+ You can guide the voice with a natural-language description placed in parentheses at the beginning of the text:
188
+
189
+ wav = model.generate(
190
+ text="(A young woman, gentle and warm voice)Hello, welcome to JetlinkTTS!",
191
+ cfg_value=2.0,
192
+ inference_timesteps=10,
193
+ )
194
+
195
+ ## Voice Cloning Example
196
+
197
+ Basic cloning with a short reference clip:
198
+
199
+ wav = model.generate(
200
+ text="This is a cloned voice generated by JetlinkTTS.",
201
+ reference_wav_path="speaker.wav",
202
+ )
203
+
204
+ Controllable cloning with style guidance:
205
+
206
+ wav = model.generate(
207
+ text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
208
+ reference_wav_path="speaker.wav",
209
+ cfg_value=2.0,
210
+ inference_timesteps=10,
211
+ )
212
+
213
+ ## High-Fidelity / Ultimate Cloning
214
+
215
+ For maximum similarity, provide both the reference audio and its transcript:
216
+
217
+ wav = model.generate(
218
+ text="This is a high-fidelity cloning demonstration using JetlinkTTS.",
219
+ prompt_wav_path="speaker_reference.wav",
220
+ prompt_text="The transcript of the reference audio.",
221
+ reference_wav_path="speaker_reference.wav",
222
+ )
223
+
224
+ ## Streaming Example
225
+
226
+ JetlinkTTS also supports streaming generation in the upstream workflow:
227
+
228
+ import numpy as np
229
+
230
+ chunks = []
231
+ for chunk in model.generate_streaming(text="Streaming is easy with JetlinkTTS!"):
232
+ chunks.append(chunk)
233
+
234
+ wav = np.concatenate(chunks)
235
+ sf.write("streaming.wav", wav, model.tts_model.sample_rate)
236
+
237
+ ## Serving Notes
238
+
239
+ This model is suitable for:
240
+
241
+ - real-time or near-real-time TTS
242
+ - voice cloning services
243
+ - multilingual TTS APIs
244
+ - creative speech generation pipelines
245
+ - enterprise speech applications :contentReference[oaicite:11]{index=11}
246
+
247
+ The upstream model card reports real-time factor values as low as approximately **0.30 on NVIDIA RTX 4090** and approximately **0.13 with Nano-VLLM acceleration**, indicating that optimized serving is possible with the right runtime stack. :contentReference[oaicite:12]{index=12}
248
+
249
+ ## Strengths
250
+
251
+ - strong multilingual TTS coverage
252
+ - voice design without reference audio
253
+ - controllable voice cloning
254
+ - high-fidelity cloning with transcript guidance
255
+ - 48kHz output quality
256
+ - streaming support
257
+ - open-source and commercial-friendly licensing :contentReference[oaicite:13]{index=13}
258
+
259
+ ## Limitations
260
+
261
+ According to the upstream model card:
262
+
263
+ - voice design and style control results may vary between runs
264
+ - performance varies across languages depending on training data availability
265
+ - occasional instability may appear with very long or highly expressive inputs
266
+ - the model must not be used for impersonation, fraud, or disinformation
267
+ - AI-generated content should be clearly labeled :contentReference[oaicite:14]{index=14}
268
+
269
+ ## Out-of-Scope / Cautionary Use
270
+
271
+ Outputs should not be used for:
272
+
273
+ - impersonation
274
+ - fraud
275
+ - disinformation
276
+ - deceptive identity simulation
277
+ - unlabeled synthetic voice deployment in sensitive scenarios
278
+
279
+ Human review, clear disclosure, and policy controls are strongly recommended. :contentReference[oaicite:15]{index=15}
280
+
281
+ ## Fine-Tuning
282
+
283
+ The upstream model card states that VoxCPM2 supports both **LoRA fine-tuning** and **full fine-tuning**, with as little as **5–10 minutes of audio** in some workflows. Refer to the upstream fine-tuning guide for exact procedures and configuration details. :contentReference[oaicite:16]{index=16}
284
+
285
+ ## License
286
+
287
+ This repository follows the same license as the upstream release.
288
+
289
+ - **License:** Apache-2.0
290
+
291
+ If you redistribute, fine-tune, quantize, or otherwise modify this model, make sure your usage remains compliant with the upstream license and attribution requirements. :contentReference[oaicite:17]{index=17}
292
+
293
+ ## Attribution
294
+
295
+ Original upstream model:
296
+ - `openbmb/VoxCPM2`
297
+
298
+ This repository is an organization-managed copy and is **not the original upstream source**.
299
+
300
+ ## Citation
301
+
302
+ Please cite the original VoxCPM2 release when using this model in research, evaluation, or production documentation.
303
+
304
+ @article{voxcpm2_2026,
305
+ title = {VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning},
306
+ author = {VoxCPM Team},
307
+ journal = {GitHub},
308
+ year = {2026},
309
+ }
310
+
311
+ @article{voxcpm2025,
312
+ title = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning},
313
+ author = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and
314
+ Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and
315
+ Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan},
316
+ journal = {arXiv preprint arXiv:2509.24650},
317
+ year = {2025},
318
+ } :contentReference[oaicite:18]{index=18}
319
+
320
+ ## Disclaimer
321
+
322
+ This repository may include packaging, naming, or deployment-oriented changes for organizational use.
323
+
324
+ For official updates, benchmark details, and upstream release notes, refer to the original upstream model card. :contentReference[oaicite:19]{index=19}
325
+
326
+ ---
327
+
328
+ # JetlinkTTS (Türkçe)
329
+
330
+ Bu depo, çok dilli metinden konuşmaya dönüştürme, ses klonlama ve kontrol edilebilir voice design iş yükleri için **openbmb/VoxCPM2** tabanlı **JetlinkTTS** modelinin kurum tarafından yönetilen bir kopyasını barındırır.
331
+
332
+ Bu depo; modeli kendi namespace’i altında yönetmek, erişimi kontrol etmek ve dağıtımı kolaylaştırmak isteyen ekipler için hazırlanmıştır. Amaç, upstream model ekosistemiyle uyumluluğu koruyarak kurumsal kullanım sağlamaktır.
333
+
334
+ ## Model Özeti
335
+
336
+ JetlinkTTS, **VoxCPM2** tabanlı tokenizer-free diffusion autoregressive bir metinden konuşmaya dönüştürme modelidir. Upstream model kartına göre model **2B parametreye** sahiptir, **30 dil** destekler, **48kHz ses çıktısı** üretir ve **2 milyon saatten fazla çok dilli konuşma verisi** üzerinde eğitilmiştir. Ayrıca **voice cloning**, **voice design**, **streaming generation** ve **context-aware synthesis** özelliklerini destekler. :contentReference[oaicite:20]{index=20}
337
+
338
+ ## Temel Özellikler
339
+
340
+ - **30 dilde çok dilli TTS**
341
+ - Doğal dil açıklamasından **Voice Design**
342
+ - Kısa referans ses ile **Controllable Voice Cloning**
343
+ - Referans ses + transcript ile **Ultimate Cloning**
344
+ - **48kHz stüdyo kalitesinde çıktı**
345
+ - **Streaming generation**
346
+ - **Bağlama duyarlı prosody ve ifade üretimi**
347
+ - **Apache-2.0** ile ticari kullanıma uygun lisans :contentReference[oaicite:21]{index=21}
348
+
349
+ ## Desteklenen Diller
350
+
351
+ Upstream model kartına göre VoxCPM2 şu **30 dili** destekler:
352
+
353
+ - Arapça
354
+ - Burma dili
355
+ - Çince
356
+ - Danca
357
+ - Hollandaca
358
+ - İngilizce
359
+ - Fince
360
+ - Fransızca
361
+ - Almanca
362
+ - Yunanca
363
+ - İbranice
364
+ - Hintçe
365
+ - Endonezce
366
+ - İtalyanca
367
+ - Japonca
368
+ - Kmerce
369
+ - Korece
370
+ - Lao dili
371
+ - Malayca
372
+ - Norveççe
373
+ - Lehçe
374
+ - Portekizce
375
+ - Rusça
376
+ - İspanyolca
377
+ - Svahili
378
+ - İsveççe
379
+ - Tagalog
380
+ - Tayca
381
+ - Türkçe
382
+ - Vietnamca
383
+
384
+ Ek olarak bazı Çince lehçeleri de listelenmiştir:
385
+
386
+ - 四川话
387
+ - 粤语
388
+ - 吴语
389
+ - 东北话
390
+ - 河南话
391
+ - 陕西话
392
+ - 山东话
393
+ - 天津话
394
+ - 闽南话 :contentReference[oaicite:22]{index=22}
395
+
396
+ ## Kullanım Amacı
397
+
398
+ Bu model aşağıdaki senaryolar için uygundur:
399
+
400
+ - çok dilli konuşma sentezi
401
+ - anlatım ve seslendirme üretimi
402
+ - voice assistant backend’leri
403
+ - ses klonlama iş akışları
404
+ - yaratıcı voice design
405
+ - altyazı dublajı ve lokalizasyon
406
+ - konuşma tabanlı TTS servisleri
407
+ - araştırma ve benchmark çalışmaları :contentReference[oaicite:23]{index=23}
408
+
409
+ ## Model Detayları
410
+
411
+ ### Mimari
412
+
413
+ Upstream model kartı VoxCPM2’yi şu şekilde tanımlar:
414
+
415
+ - **Mimari:** Tokenizer-free Diffusion Autoregressive (LocEnc → TSLM → RALM → LocDiT)
416
+ - **Backbone:** MiniCPM-4 tabanlı
417
+ - **Toplam parametre:** 2B
418
+ - **Audio VAE:** AudioVAE V2
419
+ - **Referans giriş:** 16kHz
420
+ - **Çıktı sesi:** 48kHz
421
+ - **Maksimum sequence length:** 8192 token
422
+ - **Varsayılan dtype:** bfloat16 :contentReference[oaicite:24]{index=24}
423
+
424
+ ## Donanım Gereksinimleri
425
+
426
+ > Bu model için tüm kullanım senaryolarını kapsayan tek bir evrensel minimum donanım gereksinimi yoktur.
427
+
428
+ Gerçek ihtiyaçlar şunlara bağlıdır:
429
+
430
+ - inference backend
431
+ - metin uzunluğu
432
+ - streaming veya offline kullanım
433
+ - voice cloning kullanımı
434
+ - concurrency
435
+ - latency hedefi
436
+ - runtime yapılandırması :contentReference[oaicite:25]{index=25}
437
+
438
+ ### Minimum Sistem Gereksinimleri
439
+
440
+ Upstream model kartı model detaylarında doğrudan **yaklaşık ~8 GB VRAM** bilgisi verir. Ayrıca temel yazılım gereksinimleri olarak **Python ≥ 3.10**, **PyTorch ≥ 2.5.0** ve **CUDA ≥ 12.0** belirtilmiştir. :contentReference[oaicite:26]{index=26}
441
+
442
+ JetlinkTTS için pratik bellek rehberi:
443
+
444
+ - **Tahmini pratik minimum VRAM:** **~8 GB**
445
+ - **Daha rahat local geliştirme ve test için önerilen:** **12–16 GB VRAM**
446
+ - **Production veya daha yüksek concurrency için önerilen:** modern datacenter sınıfı GPU’lar
447
+
448
+ > Not: gerçek bellek kullanımı; metin uzunluğu, klonlama modu, streaming kullanımı, batch size ve backend kaynaklı ek yükler nedeniyle artabilir. Yukarıdaki değerler kesin sınırlar değil, pratik rehber olarak değerlendirilmelidir. :contentReference[oaicite:27]{index=27}
449
+
450
+ ### Referans Donanım
451
+
452
+ Pratik dağıtım planlaması için:
453
+
454
+ - **Geliştirme / hafif test:** yaklaşık **8 GB VRAM veya üzeri** tek modern GPU yeterli olabilir
455
+ - **Daha rahat local denemeler:** **12–16 GB VRAM**
456
+ - **Production odaklı serving:** modern datacenter GPU’lar önerilir
457
+ - **Daha düşük latency / daha yüksek throughput:** optimize inference stack’leri değerlendirilmelidir :contentReference[oaicite:28]{index=28}
458
+
459
+ ## Yazılım Gereksinimleri
460
+
461
+ Önerilen ortam:
462
+
463
+ - **Python 3.10 veya üzeri**
464
+ - **PyTorch 2.5.0 veya üzeri**
465
+ - **CUDA 12.0 veya üzeri**
466
+ - deployment için Linux önerilir
467
+ - upstream kullanım için `voxcpm` paketi :contentReference[oaicite:29]{index=29}
468
+
469
+ Yaygın bağımlılıklar:
470
+
471
+ - `torch`
472
+ - `soundfile`
473
+ - `voxcpm`
474
+
475
+ ## Hızlı Başlangıç
476
+
477
+ Upstream paketi kur:
478
+
479
+ pip install voxcpm
480
+
481
+ Temel kullanım:
482
+
483
+ import soundfile as sf
484
+ from voxcpm import VoxCPM
485
+
486
+ model = VoxCPM.from_pretrained("Jetlink/JetlinkTTS", load_denoiser=False)
487
+
488
+ wav = model.generate(
489
+ text="JetlinkTTS delivers expressive multilingual speech generation.",
490
+ cfg_value=2.0,
491
+ inference_timesteps=10,
492
+ )
493
+
494
+ sf.write("output.wav", wav, model.tts_model.sample_rate)
495
+
496
+ ## Voice Design Örneği
497
+
498
+ Ses tarzını, metnin başında parantez içinde doğal dil ile yönlendirebilirsin:
499
+
500
+ wav = model.generate(
501
+ text="(Genç bir kadın, yumuşak ve sıcak bir ses tonu)Merhaba, JetlinkTTS'e hoş geldiniz!",
502
+ cfg_value=2.0,
503
+ inference_timesteps=10,
504
+ )
505
+
506
+ ## Voice Cloning Örneği
507
+
508
+ Kısa bir referans ses ile temel klonlama:
509
+
510
+ wav = model.generate(
511
+ text="Bu, JetlinkTTS tarafından üretilmiş klonlanmış bir sestir.",
512
+ reference_wav_path="speaker.wav",
513
+ )
514
+
515
+ Stil kontrollü klonlama:
516
+
517
+ wav = model.generate(
518
+ text="(Biraz daha hızlı, neşeli bir ton)Bu, stil kontrolü uygulanmış klonlanmış bir sestir.",
519
+ reference_wav_path="speaker.wav",
520
+ cfg_value=2.0,
521
+ inference_timesteps=10,
522
+ )
523
+
524
+ ## Yüksek Benzerlikli / Ultimate Cloning
525
+
526
+ En yüksek benzerlik için hem referans ses hem de transcript verilebilir:
527
+
528
+ wav = model.generate(
529
+ text="Bu, JetlinkTTS ile yapılmış yüksek benzerlikli klonlama örneğidir.",
530
+ prompt_wav_path="speaker_reference.wav",
531
+ prompt_text="Referans sesin transcript metni.",
532
+ reference_wav_path="speaker_reference.wav",
533
+ )
534
+
535
+ ## Streaming Örneği
536
+
537
+ Upstream akışta streaming üretim de desteklenir:
538
+
539
+ import numpy as np
540
+
541
+ chunks = []
542
+ for chunk in model.generate_streaming(text="JetlinkTTS ile streaming oldukça kolay!"):
543
+ chunks.append(chunk)
544
+
545
+ wav = np.concatenate(chunks)
546
+
547
+ ## Serving Notları
548
+
549
+ Bu model şu kullanım türleri için uygundur:
550
+
551
+ - gerçek zamanlı veya gerçeğe yakın zamanlı TTS
552
+ - voice cloning servisleri
553
+ - çok dilli TTS API’leri
554
+ - yaratıcı konuşma üretim akışları
555
+ - kurumsal ses uygulamaları :contentReference[oaicite:30]{index=30}
556
+
557
+ Upstream model kartı, gerçek zaman faktörü için yaklaşık **RTX 4090 üzerinde ~0.30** ve **Nano-VLLM hızlandırmasıyla ~0.13** seviyelerini raporlar. Bu da uygun runtime stack ile optimize serving yapılabildiğini gösterir. :contentReference[oaicite:31]{index=31}
558
+
559
+ ## Güçlü Yönler
560
+
561
+ - güçlü çok dilli TTS kapsaması
562
+ - referans ses olmadan voice design
563
+ - kontrol edilebilir voice cloning
564
+ - transcript destekli yüksek benzerlikli klonlama
565
+ - 48kHz çıktı kalitesi
566
+ - streaming desteği
567
+ - açık kaynak ve ticari kullanıma uygun lisans :contentReference[oaicite:32]{index=32}
568
+
569
+ ## Sınırlamalar
570
+
571
+ Upstream model kartına göre:
572
+
573
+ - voice design ve style control sonuçları çalıştırmalar arasında değişebilir
574
+ - performans, eğitim verisi kapsamına bağlı olarak dillere göre değişir
575
+ - çok uzun veya aşırı ifadeli girdilerde zaman zaman kararsızlık görülebilir
576
+ - impersonation, fraud veya disinformation için kullanımı kesinlikle yasaktır
577
+ - AI ile üretilmiş içerikler açıkça etiketlenmelidir :contentReference[oaicite:33]{index=33}
578
+
579
+ ## Kapsam Dışı / Dikkat Gerektiren Kullanımlar
580
+
581
+ Çıktılar şu amaçlarla kullanılmamalıdır:
582
+
583
+ - kimliğe bürünme
584
+ - dolandırıcılık
585
+ - dezenformasyon
586
+ - aldatıcı kimlik simülasyonu
587
+ - hassas senaryolarda etiketsiz sentetik ses kullanımı
588
+
589
+ İnsan denetimi, açık bilgilendirme ve politika kontrolleri güçlü şekilde önerilir. :contentReference[oaicite:34]{index=34}
590
+
591
+ ## Fine-Tuning
592
+
593
+ Upstream model kartı, VoxCPM2’nin hem **LoRA fine-tuning** hem de **full fine-tuning** desteklediğini ve bazı senaryolarda **5–10 dakika ses verisi** ile ince ayar yapılabildiğini belirtir. Kesin prosedür ve konfigürasyon detayları için upstream fine-tuning rehberine bakılmalıdır. :contentReference[oaicite:35]{index=35}
594
+
595
+ ## Lisans
596
+
597
+ Bu depo, upstream sürümle aynı lisansı takip eder.
598
+
599
+ - **Lisans:** Apache-2.0
600
+
601
+ Modeli yeniden dağıtıyor, fine-tune ediyor, quantize ediyor veya başka şekilde değiştiriyorsan; kullanımının upstream lisans ve attribution gereklilikleriyle uyumlu olduğundan emin olmalısın. :contentReference[oaicite:36]{index=36}
602
+
603
+ ## Atıf
604
+
605
+ Orijinal upstream model:
606
+ - `openbmb/VoxCPM2`
607
+
608
+ Bu depo, kurum tarafından yönetilen bir kopyadır ve **orijinal upstream kaynak değildir**.
609
+
610
+ ## Atıf / Citation
611
+
612
+ Bu modeli araştırma, değerlendirme veya production dokümantasyonunda kullanıyorsan, lütfen orijinal VoxCPM2 sürümüne atıf yap.
613
+
614
+ @article{voxcpm2_2026,
615
+ title = {VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning},
616
+ author = {VoxCPM Team},
617
+ journal = {GitHub},
618
+ year = {2026},
619
+ }
620
+
621
+ @article{voxcpm2025,
622
+ title = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning},
623
+ author = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and
624
+ Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and
625
+ Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan},
626
+ journal = {arXiv preprint arXiv:2509.24650},
627
+ year = {2025},
628
+ }
629
+
630
+ ## Feragatname
631
+
632
+ Bu depo, kurumsal kullanım amacıyla paketleme, isimlendirme veya dağıtım odaklı bazı değişiklikler içerebilir.
633
+
634
+ Resmi güncellemeler, benchmark detayları ve upstream sürüm notları için orijinal upstream model kartına bakılmalıdır.