BricksDisplay
/

vits-cmn

Transformers.js

Model card Files Files and versions

hans00 commited on Jan 12, 2024

Commit

ed8c643

·

verified ·

1 Parent(s): a627c6d

Update README.md

Files changed (1) hide show

README.md +36 -0

README.md CHANGED Viewed

@@ -5,3 +5,39 @@ language:
 library_name: transformers.js
 ---

 library_name: transformers.js
 ---
+# VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
+VITS is an end-to-end speech synthesis model that predicts a speech waveform conditional on an input text sequence. It is a conditional variational autoencoder (VAE) comprised of a posterior encoder, decoder, and conditional prior.
+## Model Details
+Languages: Chinese
+Dataset: THCHS-30
+Speakers: 44
+Training Hours: 48
+## Usage
+Using this checkpoint from Hugging Face Transformers:
+```py
+from transformers import VitsModel, VitsTokenizer
+from pypinyin import lazy_pinyin, Style
+import torch
+model = VitsModel.from_pretrained("BricksDisplay/vits-cmn")
+tokenizer = VitsTokenizer.from_pretrained("BricksDisplay/vits-cmn")
+text = "中文"
+payload = ''.join(lazy_pinyin(text, style=Style.TONE, tone_sandhi=True))
+inputs = tokenizer(payload, return_tensors="pt")
+with torch.no_grad():
+    output = model(**inputs, speaker_id=0)
+from IPython.display import Audio
+Audio(output.audio[0], rate=16000)
+```