tonyshark commited on
Commit
7ae4bbf
·
verified ·
1 Parent(s): 19cc59e

Upload README.md

Browse files
Files changed (1) hide show
  1. README.md +188 -0
README.md ADDED
@@ -0,0 +1,188 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ title: StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường
3
+ emoji: 🎙️
4
+ colorFrom: blue
5
+ colorTo: purple
6
+ sdk: gradio
7
+ sdk_version: "4.0.0"
8
+ app_file: app.py
9
+ pinned: false
10
+ license: mit
11
+ language:
12
+ - vi
13
+ - en
14
+ pipeline_tag: text-to-speech
15
+ tags:
16
+ - 'StyleTTS2'
17
+ - 'Text-to-Speech'
18
+ - 'Vietnamese'
19
+ - 'Audio'
20
+ - 'Speech'
21
+ - 'TTS'
22
+ - 'Environment'
23
+ - 'Effects'
24
+ - 'Gradio'
25
+ - 'AI'
26
+ - 'Voice'
27
+ ---
28
+
29
+ <div style="text-align:center;">
30
+ <h1>🎙️ StyleTTS2 Text-to-Speech với Hiệu ứng Môi trường</h1>
31
+ <p>Ứng dụng Text-to-Speech sử dụng StyleTTS2 với khả năng thêm hiệu ứng môi trường âm thanh và điều chỉnh tốc độ nói.</p>
32
+ </div>
33
+
34
+ ## ✨ Tính năng
35
+
36
+ - 🎤 **Text-to-Speech** sử dụng StyleTTS2
37
+ - 🌍 **Hiệu ứng môi trường**: Church, Hall, Cafe, Street, Office, Supermarket, Phone
38
+ - ⚡ **Điều chỉnh tốc độ nói** từ 0.5x đến 2.0x
39
+ - 🔊 **Kiểm soát mức độ nhiễu** (SNR)
40
+ - 📊 **So sánh waveform** trực quan
41
+ - 🎭 **Tags cảm xúc** với emoji
42
+ - 🌐 **Giao diện web** thân thiện
43
+
44
+ ## 🚀 Cách sử dụng
45
+
46
+ ### 1. Nhập văn bản
47
+ Nhập văn bản tiếng Việt vào ô text. Bạn có thể sử dụng các tags để tạo cảm xúc:
48
+ - `<happy>vui vẻ</happy>`
49
+ - `<sad>buồn bã</sad>`
50
+ - `<angry>giận dữ</angry>`
51
+ - `<whisper>thì thầm</whisper>`
52
+
53
+ ### 2. Chọn môi trường
54
+ - **Neutral**: Không có hiệu ứng
55
+ - **Church/Hall**: Thêm reverb (tiếng vang)
56
+ - **Cafe/Street/Office/Supermarket**: Thêm tiếng ồn nền
57
+ - **Phone**: Giới hạn tần số như điện thoại
58
+
59
+ ### 3. Điều chỉnh tham số
60
+ - **Tốc độ nói**: 0.5x (chậm) đến 2.0x (nhanh)
61
+ - **Mức độ nhiễu**: Chỉ áp dụng cho môi trường có tiếng ồn
62
+
63
+ ### 4. Tạo giọng nói
64
+ Nhấn nút "🎵 Tạo giọng nói" để tạo audio với hiệu ứng.
65
+
66
+ ## 🎭 Tags cảm xúc
67
+
68
+ | Tag | Ý nghĩa | Emoji |
69
+ |-----|---------|-------|
70
+ | `<laugh>...</laugh>` | Cười thoải mái | 😆 |
71
+ | `<whisper>...</whisper>` | Thì thầm | 🤫 |
72
+ | `<naughty>...</naughty>` | Tinh nghịch | 😏 |
73
+ | `<giggle>...</giggle>` | Cười rúc rích | 😂 |
74
+ | `<tease>...</tease>` | Trêu chọc | 😉 |
75
+ | `<smirk>...</smirk>` | Đắc ý | 😼 |
76
+ | `<surprise>...</surprise>` | Ngạc nhiên | 😲 |
77
+ | `<shock>...</shock>` | Hoảng hốt | 😱 |
78
+ | `<romantic>...</romantic>` | Lãng mạn | ❤️ |
79
+ | `<shy>...</shy>` | Bẽn lẽn | 🫣 |
80
+ | `<excited>...</excited>` | Phấn khích | 🤩 |
81
+ | `<curious>...</curious>` | Tò mò | 🧐 |
82
+ | `<discover>...</discover>` | Phát hiện | ✨ |
83
+ | `<blush>...</blush>` | Ngượng ngùng | 🌸 |
84
+ | `<angry>...</angry>` | Giận dữ | 😡 |
85
+ | `<sad>...</sad>` | Buồn | 😢 |
86
+ | `<happy>...</happy>` | Vui vẻ | 😊 |
87
+ | `<fear>...</fear>` | Sợ hãi | 😨 |
88
+ | `<confident>...</confident>` | Tự tin | 😎 |
89
+ | `<serious>...</serious>` | Nghiêm túc | 😐 |
90
+ | `<tired>...</tired>` | Mệt mỏi | 🥱 |
91
+ | `<cry>...</cry>` | Khóc | 😭 |
92
+ | `<love>...</love>` | Yêu thương | 😍 |
93
+ | `<disgust>...</disgust>` | Ghê tởm | 🤢 |
94
+
95
+ ## 🌍 Môi trường âm thanh
96
+
97
+ ### Reverb Effects
98
+ - **Church**: Tiếng vang trong nhà thờ
99
+ - **Hall**: Tiếng vang trong hội trường
100
+
101
+ ### Noise Effects
102
+ - **Cafe**: Tiếng ồn quán cà phê
103
+ - **Street**: Tiếng ồn đường phố
104
+ - **Office**: Tiếng ồn văn phòng
105
+ - **Supermarket**: Tiếng ồn siêu thị
106
+
107
+ ### Filter Effects
108
+ - **Phone**: Giới hạn tần số như điện thoại
109
+
110
+ ## 📊 SNR (Signal-to-Noise Ratio)
111
+
112
+ - **Giá trị cao (20-30 dB)**: Ít nhiễu, âm thanh rõ ràng
113
+ - **Giá trị trung bình (10-20 dB)**: Nhiễu vừa phải
114
+ - **Giá trị thấp (0-10 dB)**: Nhiều nhiễu, âm thanh khó nghe
115
+
116
+ ## ⚡ Tốc độ nói
117
+
118
+ - **0.5x**: Nói chậm một nửa
119
+ - **0.8x**: Nói chậm một chút
120
+ - **1.0x**: Tốc độ bình thường
121
+ - **1.2x**: Nói nhanh một chút
122
+ - **1.5x**: Nói nhanh
123
+ - **2.0x**: Nói nhanh gấp đôi
124
+
125
+ ## 🛠️ Cài đặt local
126
+
127
+ ### Yêu cầu hệ thống
128
+ - Python >= 3.8
129
+ - espeak-ng (cho phonemizer)
130
+
131
+ ### Cài đặt dependencies
132
+ ```bash
133
+ pip install -r requirements.txt
134
+ ```
135
+
136
+ ### Cài đặt espeak-ng
137
+ ```bash
138
+ # macOS
139
+ brew install espeak-ng
140
+
141
+ # Ubuntu/Debian
142
+ sudo apt-get install espeak-ng
143
+
144
+ # Windows: Tải từ GitHub releases
145
+ ```
146
+
147
+ ### Chạy ứng dụng
148
+ ```bash
149
+ python app.py
150
+ ```
151
+
152
+ ## 🔧 Xử lý sự cố
153
+
154
+ ### Model không tải được
155
+ - Kiểm tra kết nối internet
156
+ - Đảm bảo có đủ RAM (tối thiểu 4GB)
157
+ - Model sẽ được tải tự động từ Hugging Face
158
+
159
+ ### Lỗi phonemizer
160
+ - Cài đặt espeak-ng theo hướng dẫn
161
+ - Khởi động lại ứng dụng
162
+
163
+ ### Âm thanh không phát được
164
+ - Kiểm tra volume hệ thống
165
+ - Thử refresh trang web
166
+ - Kiểm tra trình duyệt có hỗ trợ audio không
167
+
168
+ ## 📝 Ghi chú
169
+
170
+ - Model được tải lần đầu có thể mất vài phút
171
+ - Hỗ trợ cả GPU và CPU (tự động chuyển đổi)
172
+ - File giọng nói tham chiếu cần có trong thư mục `speakers/`
173
+ - Ứng dụng tối ưu cho tiếng Việt
174
+
175
+ ## 🤝 Đóng góp
176
+
177
+ Mọi đóng góp đều được chào đón! Vui lòng tạo issue hoặc pull request.
178
+
179
+ ## 📄 License
180
+
181
+ Dự án này sử dụng MIT License. StyleTTS2 model tuân thủ license của tác giả gốc.
182
+
183
+ ## 🙏 Acknowledgments
184
+
185
+ - [StyleTTS2](https://github.com/yl4579/StyleTTS2) - Model gốc
186
+ - [Gradio](https://gradio.app/) - Web interface
187
+ - [Librosa](https://librosa.org/) - Audio processing
188
+ - [Phonemizer](https://github.com/bootphon/phonemizer) - Text processing