AnhP commited on
Commit
b92724f
·
verified ·
1 Parent(s): 8c82389

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +142 -103
README.md CHANGED
@@ -15,7 +15,7 @@ base_model:
15
  ---
16
 
17
  <div align="center">
18
- <img alt="LOGO" src="https://huggingface.co/AnhP/Vietnamese-RVC-Project/resolve/main/ico.png" width="300" height="300" />
19
 
20
  # Vietnamese RVC BY ANH
21
  Công cụ chuyển đổi giọng nói chất lượng và hiệu suất cao đơn giản dành cho người Việt.
@@ -80,6 +80,8 @@ EMBEDDERS_ONNX: Tất cả mô hình nhúng ở trên điều có phiên bản
80
 
81
  EMBEDDERS_TRANSFORMERS: Tất cả mô hình nhúng ở trên điều có phiên bản được chuyển đổi sẳn sang huggingface để sử dụng thay thế cho fairseq
82
 
 
 
83
  # Hướng dẫn sử dụng
84
 
85
  **Sẽ có nếu tôi thực sự rảnh...**
@@ -137,7 +139,26 @@ Vietnamese-RVC-main
137
  ├── assets
138
  │ ├── f0
139
  │ ├── languages
 
 
140
  │ ├── logs
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
141
  │ ├── models
142
  │ │ ├── audioldm2
143
  │ │ ├── embedders
@@ -147,89 +168,105 @@ Vietnamese-RVC-main
147
  │ │ ├── pretrained_v2
148
  │ │ ├── speaker_diarization
149
  │ │ │ ├── assets
 
 
 
150
  │ │ │ └── models
151
  │ │ └── uvr5
152
  │ ├── presets
153
- └── weights
 
154
  ├── audios
155
  ├── dataset
156
- └── main
157
- ├── app
158
- │ ├── app.py
159
- │ ├── tensorboard.py
160
- │ └── parser.py
161
- ├── configs
162
- │ ├── v1
163
- │ │ ├── 32000.json
164
- │ │ ├── 40000.json
165
- │ │ └── 48000.json
166
- │ ├── v2
167
- │ │ ├── 32000.json
168
- │ │ ├── 40000.json
169
- │ │ └── 48000.json
170
- │ ├── config.json
171
- │ └── config.py
172
- ├── inference
173
- │ ├── audio_effects.py
174
- │ ├── audioldm2.py
175
- │ ├── convert.py
176
- │ ├── create_dataset.py
177
- │ ├── create_index.py
178
- │ ├── extract.py
179
- │ ├── preprocess.py
180
- │ ├── separator_music.py
181
- │ └── train.py
182
- ├── library
183
- │ ├── algorithm
184
- │ │ ├── commons.py
185
- │ │ ├── modules.py
186
- │ │ ├── mrf_hifigan.py
187
- │ │ ├── onnx_export.py
188
- │ │ ├── refinegan.py
189
- │ │ ├── residuals.py
190
- │ │ ├── separator.py
191
- │ │ └── stftpitchshift.py
192
- │ ├── architectures
193
- │ │ ├── demucs_separator.py
194
- │ │ ├── fairseq.py
195
- │ │ └── mdx_separator.py
196
- │ ├── audioldm2
197
- │ │ ├── models.py
198
- │ │ └── utils.py
199
- │ ├── predictors
200
- │ │ ├── CREPE.py
201
- │ │ ├── FCPE.py
202
- │ │ ├── RMVPE.py
203
- │ │ ├── SWIPE.py
204
- │ │ └── WORLD_WRAPPER.py
205
- ├── speaker_diarization
206
- │ │ ├── audio.py
207
- │ │ ├── ECAPA_TDNN.py
208
- │ │ ├── embedding.py
209
- │ │ ├── encoder.py
210
- │ │ ├── features.py
211
- │ │ ├── parameter_transfer.py
212
- │ │ ├── segment.py
213
- │ │ ├── speechbrain.py
214
- │ │ └── whisper.py
215
- ├── uvr5_separator
216
- │ │ ├── common_separator.py
217
- │ │ ├── spec_utils.py
218
- │ │ └── demucs
219
- │ │ ├── apply.py
220
- │ │ ├── demucs.py
221
- │ │ ├── hdemucs.py
222
- │ │ ├── htdemucs.py
223
- │ │ ├── states.py
224
- │ │ └── utils.py
225
- │ └── utils.py
226
- └── tools
227
- ├── gdown.py
228
- ├── huggingface.py
229
- ├── mediafire.py
230
- ├── meganz.py
231
- ├── noisereduce.py
232
- └── pixeldrain.py
 
 
 
 
 
 
 
 
 
 
 
 
233
  </pre>
234
 
235
  # LƯU Ý
@@ -237,6 +274,8 @@ Vietnamese-RVC-main
237
  - **Dự án này chỉ hỗ trợ trên gpu của NVIDIA (Có thể sẽ hỗ trợ AMD sau nếu tôi có gpu AMD để thử)**
238
  - **Hiện tại các bộ mã hóa mới như MRF HIFIGAN vẫn chưa đầy đủ các bộ huấn luyện trước**
239
  - **Bộ mã hóa MRF HIFIGAN và REFINEGAN không hỗ trợ huấn luyện khi không không huấn luyện cao độ**
 
 
240
 
241
  # Điều khoản sử dụng
242
 
@@ -248,30 +287,30 @@ Vietnamese-RVC-main
248
 
249
  - Tôi sẽ không chịu trách nhiệm với bất kỳ thiệt hại trực tiếp hoặc gián tiếp nào phát sinh từ việc sử dụng dự án này.
250
 
251
- # Dự án này dựa trên một số dự án chính như
252
-
253
- - **[Applio](https://github.com/IAHispano/Applio/tree/main)**
254
- - **[Python-audio-separator](https://github.com/nomadkaraoke/python-audio-separator/tree/main)**
255
- - **[Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main)**
256
-
257
- ** một số dự án khác**
258
-
259
- - **[RVC-ONNX-INFER-BY-Anh](https://github.com/PhamHuynhAnh16/RVC_Onnx_Infer)**
260
- - **[Torch-Onnx-Crepe-By-Anh](https://github.com/PhamHuynhAnh16/TORCH-ONNX-CREPE)**
261
- - **[Hubert-No-Fairseq](https://github.com/PhamHuynhAnh16/hubert-no-fairseq)**
262
- - **[Local-attention](https://github.com/lucidrains/local-attention)**
263
- - **[TorchFcpe](https://github.com/CNChTu/FCPE/tree/main)**
264
- - **[FcpeONNX](https://github.com/deiteris/voice-changer/blob/master-custom/server/utils/fcpe_onnx.py)**
265
- - **[ContentVec](https://github.com/auspicious3000/contentvec)**
266
- - **[Mediafiredl](https://github.com/Gann4Life/mediafiredl)**
267
- - **[Noisereduce](https://github.com/timsainb/noisereduce)**
268
- - **[World.py-By-Anh](https://github.com/PhamHuynhAnh16/world.py)**
269
- - **[Mega.py](https://github.com/odwyersoftware/mega.py)**
270
- - **[Gdown](https://github.com/wkentaro/gdown)**
271
- - **[Whisper](https://github.com/openai/whisper)**
272
- - **[PyannoteAudio](https://github.com/pyannote/pyannote-audio)**
273
- - **[AudioEditingCode](https://github.com/HilaManor/AudioEditingCode)**
274
- - **[StftPitchShift](https://github.com/jurihock/stftPitchShift)**
275
 
276
  # Kho mô hình của công cụ tìm kiếm mô hình
277
 
 
15
  ---
16
 
17
  <div align="center">
18
+ <img alt="LOGO" src="assets/ico.png" width="300" height="300" />
19
 
20
  # Vietnamese RVC BY ANH
21
  Công cụ chuyển đổi giọng nói chất lượng và hiệu suất cao đơn giản dành cho người Việt.
 
80
 
81
  EMBEDDERS_TRANSFORMERS: Tất cả mô hình nhúng ở trên điều có phiên bản được chuyển đổi sẳn sang huggingface để sử dụng thay thế cho fairseq
82
 
83
+ SPIN_EMBEDDERS: Một mô hình trích xuất nhúng mới, có thể mang đến chất lượng cao hơn các trích xuất cũ.
84
+
85
  # Hướng dẫn sử dụng
86
 
87
  **Sẽ có nếu tôi thực sự rảnh...**
 
139
  ├── assets
140
  │ ├── f0
141
  │ ├── languages
142
+ │ │ ├── en-US.json
143
+ │ │ └── vi-VN.json
144
  │ ├── logs
145
+ │ │ └── mute
146
+ │ │ ├── f0
147
+ │ │ │ └── mute.wav.npy
148
+ │ │ ├── f0_voiced
149
+ │ │ │ └── mute.wav.npy
150
+ │ │ ├── sliced_audios
151
+ │ │ │ ├── mute32000.wav
152
+ │ │ │ ├── mute40000.wav
153
+ │ │ │ └── mute48000.wav
154
+ │ │ ├── sliced_audios_16k
155
+ │ │ │ └── mute.wav
156
+ │ │ ├── v1_extracted
157
+ │ │ │ ├── mute.npy
158
+ │ │ │ └── mute_spin.npy
159
+ │ │ └── v2_extracted_spin
160
+ │ │ ├── mute.npy
161
+ │ │ └── mute_spin.npy
162
  │ ├── models
163
  │ │ ├── audioldm2
164
  │ │ ├── embedders
 
168
  │ │ ├── pretrained_v2
169
  │ │ ├── speaker_diarization
170
  │ │ │ ├── assets
171
+ │ │ │ │ ├── gpt2.tiktoken
172
+ │ │ │ │ ├── mel_filters.npz
173
+ │ │ │ │ └── multilingual.tiktoken
174
  │ │ │ └── models
175
  │ │ └── uvr5
176
  │ ├── presets
177
+ ├── weights
178
+ │ └── ico.png
179
  ├── audios
180
  ├── dataset
181
+ ├── main
182
+ ├── app
183
+ ├── app.py
184
+ ├── tensorboard.py
185
+ └── parser.py
186
+ ├── configs
187
+ ├── v1
188
+ │ │ ├── 32000.json
189
+ │ │ ├── 40000.json
190
+ │ │ └── 48000.json
191
+ ├── v2
192
+ │ │ ├── 32000.json
193
+ │ │ ├── 40000.json
194
+ │ │ └── 48000.json
195
+ ├── config.json
196
+ └── config.py
197
+ ├── inference
198
+ ├── audio_effects.py
199
+ ├── audioldm2.py
200
+ ├── convert.py
201
+ ├── create_dataset.py
202
+ ├── create_index.py
203
+ ├── extract.py
204
+ ├── preprocess.py
205
+ ├── separator_music.py
206
+ └── train.py
207
+ ├── library
208
+ ├── algorithm
209
+ │ │ ├── commons.py
210
+ │ │ ├── modules.py
211
+ │ │ ├── mrf_hifigan.py
212
+ │ │ ├── onnx_export.py
213
+ │ │ ├── refinegan.py
214
+ │ │ ├── residuals.py
215
+ │ │ ├── separator.py
216
+ │ │ └── stftpitchshift.py
217
+ ├── architectures
218
+ │ │ ├── demucs_separator.py
219
+ │ │ ├── fairseq.py
220
+ │ │ └── mdx_separator.py
221
+ ├── audioldm2
222
+ │ │ ├── models.py
223
+ │ │ └── utils.py
224
+ ├── predictors
225
+ │ │ ├── CREPE.py
226
+ │ │ ├── FCPE.py
227
+ │ │ ├── Generator.py
228
+ │ │ ├── RMVPE.py
229
+ │ │ │ ├── SWIPE.py
230
+ │ │ └── WORLD_WRAPPER.py
231
+ │ │ ├── speaker_diarization
232
+ │ │ ├── audio.py
233
+ │ │ ├── ECAPA_TDNN.py
234
+ │ │ ├── embedding.py
235
+ │ │ ├── encoder.py
236
+ │ │ ├── features.py
237
+ │ │ ├── parameter_transfer.py
238
+ │ │ ├── segment.py
239
+ │ │ │ ├── speechbrain.py
240
+ │ │ └── whisper.py
241
+ │ │ ├── uvr5_separator
242
+ │ │ ├── common_separator.py
243
+ │ │ │ ├── spec_utils.py
244
+ │ │ │ └── demucs
245
+ │ │ ├── apply.py
246
+ │ │ ├── demucs.py
247
+ │ │ ├── hdemucs.py
248
+ │ │ ├── htdemucs.py
249
+ │ │ ├── states.py
250
+ │ │ └── utils.py
251
+ │ │ └── utils.py
252
+ │ └── tools
253
+ ├── gdown.py
254
+ ├── huggingface.py
255
+ ├── mediafire.py
256
+ ├── meganz.py
257
+ │ ├── noisereduce.py
258
+ │ └── pixeldrain.py
259
+ ├── docker-compose-cpu.yaml
260
+ ├── docker-compose-cuda118.yaml
261
+ ├── docker-compose-cuda128.yaml
262
+ ├── Dockerfile
263
+ ├── Dockerfile.cuda118
264
+ ├── Dockerfile.cuda128
265
+ ├── LICENSE
266
+ ├── README.md
267
+ ├── requirements.txt
268
+ ├── run_app.bat
269
+ └── tensorboard.bat
270
  </pre>
271
 
272
  # LƯU Ý
 
274
  - **Dự án này chỉ hỗ trợ trên gpu của NVIDIA (Có thể sẽ hỗ trợ AMD sau nếu tôi có gpu AMD để thử)**
275
  - **Hiện tại các bộ mã hóa mới như MRF HIFIGAN vẫn chưa đầy đủ các bộ huấn luyện trước**
276
  - **Bộ mã hóa MRF HIFIGAN và REFINEGAN không hỗ trợ huấn luyện khi không không huấn luyện cao độ**
277
+ - **Các mô hình trong kho lưu trữ Vietnamese-RVC được thu thập rải rác trên AI Hub, HuggingFace và các các kho lưu trữ khác. Có thể mang các giấy phép bản quyền khác nhau (Ví dụ: Audioldm2 có các trọng số mô hình với điều khoản "Phi Thương Mại")**
278
+ - **Mã nguồn này có chứa thành phần phần mềm bên thứ ba được cấp phép với điều khoản "phi thương mại". Bất kỳ hành vi sử dụng thương mại nào, bao gồm kêu gọi tài trợ hoặc tài chính hóa phần mềm phái sinh, đều có thể vi phạm giấy phép và sẽ phải chịu trách nhiệm pháp lý tương ứng.**
279
 
280
  # Điều khoản sử dụng
281
 
 
287
 
288
  - Tôi sẽ không chịu trách nhiệm với bất kỳ thiệt hại trực tiếp hoặc gián tiếp nào phát sinh từ việc sử dụng dự án này.
289
 
290
+ # Dự án này được xây dựng dựa trên các dự án như sau
291
+
292
+ | Tác Phẩm | Tác Giả | Giấy Phép |
293
+ |--------------------------------------------------------------------------------------------------------------------------------|-------------------------|-------------|
294
+ | **[Applio](https://github.com/IAHispano/Applio/tree/main)** | IAHispano | MIT License |
295
+ | **[Python-audio-separator](https://github.com/nomadkaraoke/python-audio-separator/tree/main)** | Nomad Karaoke | MIT License |
296
+ | **[Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main)** | RVC Project | MIT License |
297
+ | **[RVC-ONNX-INFER-BY-Anh](https://github.com/PhamHuynhAnh16/RVC_Onnx_Infer)** | Phạm Huỳnh Anh | MIT License |
298
+ | **[Torch-Onnx-Crepe-By-Anh](https://github.com/PhamHuynhAnh16/TORCH-ONNX-CREPE)** | Phạm Huỳnh Anh | MIT License |
299
+ | **[Hubert-No-Fairseq](https://github.com/PhamHuynhAnh16/hubert-no-fairseq)** | Phạm Huỳnh Anh | MIT License |
300
+ | **[Local-attention](https://github.com/lucidrains/local-attention)** | Phil Wang | MIT License |
301
+ | **[TorchFcpe](https://github.com/CNChTu/FCPE/tree/main)** | CN_ChiTu | MIT License |
302
+ | **[FcpeONNX](https://github.com/deiteris/voice-changer/blob/master-custom/server/utils/fcpe_onnx.py)** | Yury | MIT License |
303
+ | **[ContentVec](https://github.com/auspicious3000/contentvec)** | Kaizhi Qian | MIT License |
304
+ | **[Mediafiredl](https://github.com/Gann4Life/mediafiredl)** | Santiago Ariel Mansilla | MIT License |
305
+ | **[Noisereduce](https://github.com/timsainb/noisereduce)** | Tim Sainburg | MIT License |
306
+ | **[World.py-By-Anh](https://github.com/PhamHuynhAnh16/world.py)** | Phạm Huỳnh Anh | MIT License |
307
+ | **[Mega.py](https://github.com/3v1n0/mega.py)** | Marco Trevisan | No License |
308
+ | **[Gdown](https://github.com/wkentaro/gdown)** | Kentaro Wada | MIT License |
309
+ | **[Whisper](https://github.com/openai/whisper)** | OpenAI | MIT License |
310
+ | **[PyannoteAudio](https://github.com/pyannote/pyannote-audio)** | pyannote | MIT License |
311
+ | **[AudioEditingCode](https://github.com/HilaManor/AudioEditingCode)** | Hila Manor | MIT License |
312
+ | **[StftPitchShift](https://github.com/jurihock/stftPitchShift)** | Jürgen Hock | MIT License |
313
+ | **[Codename-RVC-Fork-3](https://github.com/codename0og/codename-rvc-fork-3)** | Codename;0 | MIT License |
314
 
315
  # Kho mô hình của công cụ tìm kiếm mô hình
316