File size: 20,865 Bytes
7959d62
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1e82a29
7959d62
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
---
license: apache-2.0
library_name: transformers
tags:
  - text-to-speech
  - tts
  - multilingual
  - voice-cloning
  - voice-design
  - audio
  - diffusion
  - transformers
pipeline_tag: text-to-speech
base_model: openbmb/VoxCPM2
---

# JetlinkTTS

This repository hosts an organization-managed copy of **JetlinkTTS** for multilingual text-to-speech, voice cloning, and controllable voice design workloads.

It is intended for teams that want to manage deployment, access, and internal distribution from their own namespace while preserving compatibility with the upstream model ecosystem.

## Model Summary

JetlinkTTS is a tokenizer-free diffusion autoregressive text-to-speech model built for expressive multilingual speech generation. The upstream model card describes it as a **2B-parameter** model supporting **30 languages**, with **48kHz audio output**, trained on **over 2 million hours of multilingual speech data**. It also supports **voice cloning**, **voice design**, **streaming generation**, and **context-aware synthesis**. :contentReference[oaicite:1]{index=1}

## Key Features

- **Multilingual text-to-speech** across 30 supported languages
- **Voice Design** from natural-language voice descriptions
- **Controllable Voice Cloning** from short reference audio
- **Ultimate Cloning** using reference audio plus transcript for higher fidelity
- **48kHz studio-quality output**
- **Streaming generation**
- **Context-aware prosody and expressiveness**
- **Commercial-friendly Apache-2.0 license** :contentReference[oaicite:2]{index=2}

## Supported Languages

According to the upstream model card, VoxCPM2 supports the following **30 languages**:

- Arabic
- Burmese
- Chinese
- Danish
- Dutch
- English
- Finnish
- French
- German
- Greek
- Hebrew
- Hindi
- Indonesian
- Italian
- Japanese
- Khmer
- Korean
- Lao
- Malay
- Norwegian
- Polish
- Portuguese
- Russian
- Spanish
- Swahili
- Swedish
- Tagalog
- Thai
- Turkish
- Vietnamese

The upstream model card also lists support for several Chinese dialects, including:

- 四川话
- 粤语
- 吴语
- 东北话
- 河南话
- 陕西话
- 山东话
- 天津话
- 闽南话 :contentReference[oaicite:3]{index=3}

## Intended Use

This model is suitable for:

- multilingual speech synthesis
- narration and audiobook generation
- voice assistant backends
- voice cloning workflows
- creative voice design
- subtitle dubbing and localization
- conversational TTS pipelines
- research and benchmarking :contentReference[oaicite:4]{index=4}

## Model Details

### Architecture

The upstream model card describes VoxCPM2 as:

- **Architecture:** Tokenizer-free Diffusion Autoregressive (LocEnc → TSLM → RALM → LocDiT)
- **Backbone:** Based on MiniCPM-4
- **Total parameters:** 2B
- **Audio VAE:** AudioVAE V2
- **Reference input:** 16kHz
- **Output audio:** 48kHz
- **Maximum sequence length:** 8192 tokens
- **Default dtype:** bfloat16 :contentReference[oaicite:5]{index=5}

## Hardware Requirements

> This model does not have a single universal minimum hardware requirement for all usage scenarios.

Actual requirements depend on:

- inference backend
- text length
- streaming vs offline mode
- voice cloning usage
- concurrency
- latency target
- runtime configuration :contentReference[oaicite:6]{index=6}

### Minimum System Requirements

The upstream model card explicitly reports **~8 GB VRAM** in the model details section. It also lists the core software requirements as **Python ≥ 3.10**, **PyTorch ≥ 2.5.0**, and **CUDA ≥ 12.0**. :contentReference[oaicite:7]{index=7}

Practical memory guidance for JetlinkTTS:

- **Estimated practical minimum VRAM:** **~8 GB**
- **Recommended for smoother local development and testing:** **12–16 GB VRAM**
- **Recommended for production or higher concurrency:** modern datacenter-class GPUs

> Note: real memory usage can increase depending on text length, cloning mode, streaming usage, batch size, and backend overhead. The values above should be treated as practical guidance rather than hard universal limits. :contentReference[oaicite:8]{index=8}

### Reference Hardware

For practical deployment planning:

- **Development / light testing:** a single modern GPU with around **8 GB VRAM or higher** may be sufficient
- **Smoother local experimentation:** **12–16 GB VRAM**
- **Production-oriented serving:** modern datacenter GPUs are recommended
- **Lower latency / higher throughput serving:** optimized inference stacks should be considered :contentReference[oaicite:9]{index=9}

## Software Requirements

Recommended environment:

- **Python 3.10 or newer**
- **PyTorch 2.5.0 or newer**
- **CUDA 12.0 or newer**
- Linux recommended for deployment
- `voxcpm` package for upstream usage :contentReference[oaicite:10]{index=10}

Common dependencies may include:

- `torch`
- `soundfile`
- `voxcpm`

## Quickstart

Install the upstream package:

    pip install voxcpm

Basic usage:

    import soundfile as sf
    from voxcpm import VoxCPM

    model = VoxCPM.from_pretrained("Jetlink/JetlinkTTS", load_denoiser=False)

    wav = model.generate(
        text="JetlinkTTS delivers expressive multilingual speech generation.",
        cfg_value=2.0,
        inference_timesteps=10,
    )

    sf.write("output.wav", wav, model.tts_model.sample_rate)

## Voice Design Example

You can guide the voice with a natural-language description placed in parentheses at the beginning of the text:

    wav = model.generate(
        text="(A young woman, gentle and warm voice)Hello, welcome to JetlinkTTS!",
        cfg_value=2.0,
        inference_timesteps=10,
    )

## Voice Cloning Example

Basic cloning with a short reference clip:

    wav = model.generate(
        text="This is a cloned voice generated by JetlinkTTS.",
        reference_wav_path="speaker.wav",
    )

Controllable cloning with style guidance:

    wav = model.generate(
        text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
        reference_wav_path="speaker.wav",
        cfg_value=2.0,
        inference_timesteps=10,
    )

## High-Fidelity / Ultimate Cloning

For maximum similarity, provide both the reference audio and its transcript:

    wav = model.generate(
        text="This is a high-fidelity cloning demonstration using JetlinkTTS.",
        prompt_wav_path="speaker_reference.wav",
        prompt_text="The transcript of the reference audio.",
        reference_wav_path="speaker_reference.wav",
    )

## Streaming Example

JetlinkTTS also supports streaming generation in the upstream workflow:

    import numpy as np

    chunks = []
    for chunk in model.generate_streaming(text="Streaming is easy with JetlinkTTS!"):
        chunks.append(chunk)

    wav = np.concatenate(chunks)
    sf.write("streaming.wav", wav, model.tts_model.sample_rate)

## Serving Notes

This model is suitable for:

- real-time or near-real-time TTS
- voice cloning services
- multilingual TTS APIs
- creative speech generation pipelines
- enterprise speech applications :contentReference[oaicite:11]{index=11}

The upstream model card reports real-time factor values as low as approximately **0.30 on NVIDIA RTX 4090** and approximately **0.13 with Nano-VLLM acceleration**, indicating that optimized serving is possible with the right runtime stack. :contentReference[oaicite:12]{index=12}

## Strengths

- strong multilingual TTS coverage
- voice design without reference audio
- controllable voice cloning
- high-fidelity cloning with transcript guidance
- 48kHz output quality
- streaming support
- open-source and commercial-friendly licensing :contentReference[oaicite:13]{index=13}

## Limitations

According to the upstream model card:

- voice design and style control results may vary between runs
- performance varies across languages depending on training data availability
- occasional instability may appear with very long or highly expressive inputs
- the model must not be used for impersonation, fraud, or disinformation
- AI-generated content should be clearly labeled :contentReference[oaicite:14]{index=14}

## Out-of-Scope / Cautionary Use

Outputs should not be used for:

- impersonation
- fraud
- disinformation
- deceptive identity simulation
- unlabeled synthetic voice deployment in sensitive scenarios

Human review, clear disclosure, and policy controls are strongly recommended. :contentReference[oaicite:15]{index=15}

## Fine-Tuning

The upstream model card states that VoxCPM2 supports both **LoRA fine-tuning** and **full fine-tuning**, with as little as **5–10 minutes of audio** in some workflows. Refer to the upstream fine-tuning guide for exact procedures and configuration details. :contentReference[oaicite:16]{index=16}

## License

This repository follows the same license as the upstream release.

- **License:** Apache-2.0

If you redistribute, fine-tune, quantize, or otherwise modify this model, make sure your usage remains compliant with the upstream license and attribution requirements. :contentReference[oaicite:17]{index=17}

## Attribution

Original upstream model:
- `openbmb/VoxCPM2`

This repository is an organization-managed copy and is **not the original upstream source**.

## Citation

Please cite the original VoxCPM2 release when using this model in research, evaluation, or production documentation.

    @article{voxcpm2_2026,
      title   = {VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning},
      author  = {VoxCPM Team},
      journal = {GitHub},
      year    = {2026},
    }

    @article{voxcpm2025,
      title   = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning},
      author  = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and
                 Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and
                 Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan},
      journal = {arXiv preprint arXiv:2509.24650},
      year    = {2025},
    } :contentReference[oaicite:18]{index=18}

## Disclaimer

This repository may include packaging, naming, or deployment-oriented changes for organizational use.

For official updates, benchmark details, and upstream release notes, refer to the original upstream model card. :contentReference[oaicite:19]{index=19}

---

# JetlinkTTS (Türkçe)

Bu depo, çok dilli metinden konuşmaya dönüştürme, ses klonlama ve kontrol edilebilir voice design iş yükleri için **openbmb/VoxCPM2** tabanlı **JetlinkTTS** modelinin kurum tarafından yönetilen bir kopyasını barındırır.

Bu depo; modeli kendi namespace’i altında yönetmek, erişimi kontrol etmek ve dağıtımı kolaylaştırmak isteyen ekipler için hazırlanmıştır. Amaç, upstream model ekosistemiyle uyumluluğu koruyarak kurumsal kullanım sağlamaktır.

## Model Özeti

JetlinkTTS, **VoxCPM2** tabanlı tokenizer-free diffusion autoregressive bir metinden konuşmaya dönüştürme modelidir. Upstream model kartına göre model **2B parametreye** sahiptir, **30 dil** destekler, **48kHz ses çıktısı** üretir ve **2 milyon saatten fazla çok dilli konuşma verisi** üzerinde eğitilmiştir. Ayrıca **voice cloning**, **voice design**, **streaming generation** ve **context-aware synthesis** özelliklerini destekler. :contentReference[oaicite:20]{index=20}

## Temel Özellikler

- **30 dilde çok dilli TTS**
- Doğal dil açıklamasından **Voice Design**
- Kısa referans ses ile **Controllable Voice Cloning**
- Referans ses + transcript ile **Ultimate Cloning**
- **48kHz stüdyo kalitesinde çıktı**
- **Streaming generation**
- **Bağlama duyarlı prosody ve ifade üretimi**
- **Apache-2.0** ile ticari kullanıma uygun lisans :contentReference[oaicite:21]{index=21}

## Desteklenen Diller

Upstream model kartına göre VoxCPM2 şu **30 dili** destekler:

- Arapça
- Burma dili
- Çince
- Danca
- Hollandaca
- İngilizce
- Fince
- Fransızca
- Almanca
- Yunanca
- İbranice
- Hintçe
- Endonezce
- İtalyanca
- Japonca
- Kmerce
- Korece
- Lao dili
- Malayca
- Norveççe
- Lehçe
- Portekizce
- Rusça
- İspanyolca
- Svahili
- İsveççe
- Tagalog
- Tayca
- Türkçe
- Vietnamca

Ek olarak bazı Çince lehçeleri de listelenmiştir:

- 四川话
- 粤语
- 吴语
- 东北话
- 河南话
- 陕西话
- 山东话
- 天津话
- 闽南话 :contentReference[oaicite:22]{index=22}

## Kullanım Amacı

Bu model aşağıdaki senaryolar için uygundur:

- çok dilli konuşma sentezi
- anlatım ve seslendirme üretimi
- voice assistant backend’leri
- ses klonlama iş akışları
- yaratıcı voice design
- altyazı dublajı ve lokalizasyon
- konuşma tabanlı TTS servisleri
- araştırma ve benchmark çalışmaları :contentReference[oaicite:23]{index=23}

## Model Detayları

### Mimari

Upstream model kartı VoxCPM2’yi şu şekilde tanımlar:

- **Mimari:** Tokenizer-free Diffusion Autoregressive (LocEnc → TSLM → RALM → LocDiT)
- **Backbone:** MiniCPM-4 tabanlı
- **Toplam parametre:** 2B
- **Audio VAE:** AudioVAE V2
- **Referans giriş:** 16kHz
- **Çıktı sesi:** 48kHz
- **Maksimum sequence length:** 8192 token
- **Varsayılan dtype:** bfloat16 :contentReference[oaicite:24]{index=24}

## Donanım Gereksinimleri

> Bu model için tüm kullanım senaryolarını kapsayan tek bir evrensel minimum donanım gereksinimi yoktur.

Gerçek ihtiyaçlar şunlara bağlıdır:

- inference backend
- metin uzunluğu
- streaming veya offline kullanım
- voice cloning kullanımı
- concurrency
- latency hedefi
- runtime yapılandırması :contentReference[oaicite:25]{index=25}

### Minimum Sistem Gereksinimleri

Upstream model kartı model detaylarında doğrudan **yaklaşık ~8 GB VRAM** bilgisi verir. Ayrıca temel yazılım gereksinimleri olarak **Python ≥ 3.10**, **PyTorch ≥ 2.5.0** ve **CUDA ≥ 12.0** belirtilmiştir. :contentReference[oaicite:26]{index=26}

JetlinkTTS için pratik bellek rehberi:

- **Tahmini pratik minimum VRAM:** **~8 GB**
- **Daha rahat local geliştirme ve test için önerilen:** **12–16 GB VRAM**
- **Production veya daha yüksek concurrency için önerilen:** modern datacenter sınıfı GPU’lar

> Not: gerçek bellek kullanımı; metin uzunluğu, klonlama modu, streaming kullanımı, batch size ve backend kaynaklı ek yükler nedeniyle artabilir. Yukarıdaki değerler kesin sınırlar değil, pratik rehber olarak değerlendirilmelidir. :contentReference[oaicite:27]{index=27}

### Referans Donanım

Pratik dağıtım planlaması için:

- **Geliştirme / hafif test:** yaklaşık **8 GB VRAM veya üzeri** tek modern GPU yeterli olabilir
- **Daha rahat local denemeler:** **12–16 GB VRAM**
- **Production odaklı serving:** modern datacenter GPU’lar önerilir
- **Daha düşük latency / daha yüksek throughput:** optimize inference stack’leri değerlendirilmelidir :contentReference[oaicite:28]{index=28}

## Yazılım Gereksinimleri

Önerilen ortam:

- **Python 3.10 veya üzeri**
- **PyTorch 2.5.0 veya üzeri**
- **CUDA 12.0 veya üzeri**
- deployment için Linux önerilir
- upstream kullanım için `voxcpm` paketi :contentReference[oaicite:29]{index=29}

Yaygın bağımlılıklar:

- `torch`
- `soundfile`
- `voxcpm`

## Hızlı Başlangıç

Upstream paketi kur:

    pip install voxcpm

Temel kullanım:

    import soundfile as sf
    from voxcpm import VoxCPM

    model = VoxCPM.from_pretrained("Jetlink/JetlinkTTS", load_denoiser=False)

    wav = model.generate(
        text="JetlinkTTS delivers expressive multilingual speech generation.",
        cfg_value=2.0,
        inference_timesteps=10,
    )

    sf.write("output.wav", wav, model.tts_model.sample_rate)

## Voice Design Örneği

Ses tarzını, metnin başında parantez içinde doğal dil ile yönlendirebilirsin:

    wav = model.generate(
        text="(Genç bir kadın, yumuşak ve sıcak bir ses tonu)Merhaba, JetlinkTTS'e hoş geldiniz!",
        cfg_value=2.0,
        inference_timesteps=10,
    )

## Voice Cloning Örneği

Kısa bir referans ses ile temel klonlama:

    wav = model.generate(
        text="Bu, JetlinkTTS tarafından üretilmiş klonlanmış bir sestir.",
        reference_wav_path="speaker.wav",
    )

Stil kontrollü klonlama:

    wav = model.generate(
        text="(Biraz daha hızlı, neşeli bir ton)Bu, stil kontrolü uygulanmış klonlanmış bir sestir.",
        reference_wav_path="speaker.wav",
        cfg_value=2.0,
        inference_timesteps=10,
    )

## Yüksek Benzerlikli / Ultimate Cloning

En yüksek benzerlik için hem referans ses hem de transcript verilebilir:

    wav = model.generate(
        text="Bu, JetlinkTTS ile yapılmış yüksek benzerlikli klonlama örneğidir.",
        prompt_wav_path="speaker_reference.wav",
        prompt_text="Referans sesin transcript metni.",
        reference_wav_path="speaker_reference.wav",
    )

## Streaming Örneği

Upstream akışta streaming üretim de desteklenir:

    import numpy as np

    chunks = []
    for chunk in model.generate_streaming(text="JetlinkTTS ile streaming oldukça kolay!"):
        chunks.append(chunk)

    wav = np.concatenate(chunks)

## Serving Notları

Bu model şu kullanım türleri için uygundur:

- gerçek zamanlı veya gerçeğe yakın zamanlı TTS
- voice cloning servisleri
- çok dilli TTS API’leri
- yaratıcı konuşma üretim akışları
- kurumsal ses uygulamaları :contentReference[oaicite:30]{index=30}

Upstream model kartı, gerçek zaman faktörü için yaklaşık **RTX 4090 üzerinde ~0.30** ve **Nano-VLLM hızlandırmasıyla ~0.13** seviyelerini raporlar. Bu da uygun runtime stack ile optimize serving yapılabildiğini gösterir. :contentReference[oaicite:31]{index=31}

## Güçlü Yönler

- güçlü çok dilli TTS kapsaması
- referans ses olmadan voice design
- kontrol edilebilir voice cloning
- transcript destekli yüksek benzerlikli klonlama
- 48kHz çıktı kalitesi
- streaming desteği
- açık kaynak ve ticari kullanıma uygun lisans :contentReference[oaicite:32]{index=32}

## Sınırlamalar

Upstream model kartına göre:

- voice design ve style control sonuçları çalıştırmalar arasında değişebilir
- performans, eğitim verisi kapsamına bağlı olarak dillere göre değişir
- çok uzun veya aşırı ifadeli girdilerde zaman zaman kararsızlık görülebilir
- impersonation, fraud veya disinformation için kullanımı kesinlikle yasaktır
- AI ile üretilmiş içerikler açıkça etiketlenmelidir :contentReference[oaicite:33]{index=33}

## Kapsam Dışı / Dikkat Gerektiren Kullanımlar

Çıktılar şu amaçlarla kullanılmamalıdır:

- kimliğe bürünme
- dolandırıcılık
- dezenformasyon
- aldatıcı kimlik simülasyonu
- hassas senaryolarda etiketsiz sentetik ses kullanımı

İnsan denetimi, açık bilgilendirme ve politika kontrolleri güçlü şekilde önerilir. :contentReference[oaicite:34]{index=34}

## Fine-Tuning

Upstream model kartı, VoxCPM2’nin hem **LoRA fine-tuning** hem de **full fine-tuning** desteklediğini ve bazı senaryolarda **5–10 dakika ses verisi** ile ince ayar yapılabildiğini belirtir. Kesin prosedür ve konfigürasyon detayları için upstream fine-tuning rehberine bakılmalıdır. :contentReference[oaicite:35]{index=35}

## Lisans

Bu depo, upstream sürümle aynı lisansı takip eder.

- **Lisans:** Apache-2.0

Modeli yeniden dağıtıyor, fine-tune ediyor, quantize ediyor veya başka şekilde değiştiriyorsan; kullanımının upstream lisans ve attribution gereklilikleriyle uyumlu olduğundan emin olmalısın. :contentReference[oaicite:36]{index=36}

## Atıf

Orijinal upstream model:
- `openbmb/VoxCPM2`

Bu depo, kurum tarafından yönetilen bir kopyadır ve **orijinal upstream kaynak değildir**.

## Atıf / Citation

Bu modeli araştırma, değerlendirme veya production dokümantasyonunda kullanıyorsan, lütfen orijinal VoxCPM2 sürümüne atıf yap.

    @article{voxcpm2_2026,
      title   = {VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning},
      author  = {VoxCPM Team},
      journal = {GitHub},
      year    = {2026},
    }

    @article{voxcpm2025,
      title   = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning},
      author  = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and
                 Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and
                 Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan},
      journal = {arXiv preprint arXiv:2509.24650},
      year    = {2025},
    }

## Feragatname

Bu depo, kurumsal kullanım amacıyla paketleme, isimlendirme veya dağıtım odaklı bazı değişiklikler içerebilir.

Resmi güncellemeler, benchmark detayları ve upstream sürüm notları için orijinal upstream model kartına bakılmalıdır.