Spaces:

espnet
/

SingingSDS

Sleeping

App Files Files Community

jhansss commited on Jul 17

Commit

64e2d77

2 Parent(s): 651aefd 92276c4

Merge branch 'refactor' into hf

Browse files

Files changed (6) hide show

README.md +16 -1
cli.py +22 -17
interface.py +2 -2
modules/llm/minimax.py +2 -1
modules/melody.py +3 -2
modules/utils/g2p.py +6 -4

README.md CHANGED Viewed

@@ -58,7 +58,22 @@ pip install -r requirements.txt
 #### Example Usage
 ```bash
-python cli.py --query_audio tests/audio/hello.wav --config_path config/cli/yaoyin_default.yaml --output_audio outputs/yaoyin_hello.wav
 ```
 #### Parameter Description

 #### Example Usage
 ```bash
+python cli.py \
+  --query_audio tests/audio/hello.wav \
+  --config_path config/cli/yaoyin_default.yaml \
+  --output_audio outputs/yaoyin_hello.wav \
+  --eval_results_csv outputs/yaoyin_test.csv
+```
+#### Inference-Only Mode
+Run minimal inference without evaluation.
+```bash
+python cli.py \
+  --query_audio tests/audio/hello.wav \
+  --config_path config/cli/yaoyin_default_infer_only.yaml \
+  --output_audio outputs/yaoyin_hello.wav
 ```
 #### Parameter Description

cli.py CHANGED Viewed

@@ -17,7 +17,7 @@ def get_parser():
         "--config_path", type=Path, default="config/cli/yaoyin_default.yaml"
     )
     parser.add_argument("--output_audio_folder", type=Path, required=True)
-    parser.add_argument("--eval_results_csv", type=Path, required=True)
     return parser
@@ -38,11 +38,15 @@ def main():
     character = get_character(character_name)
     prompt_template = character.prompt
     args.output_audio_folder.mkdir(parents=True, exist_ok=True)
-    args.eval_results_csv.parent.mkdir(parents=True, exist_ok=True)
-    with open(args.eval_results_csv, "a") as f:
-        f.write(
-            f"query_audio,asr_model,llm_model,svs_model,melody_source,language,speaker,output_audio,asr_text,llm_text,metrics\n"
-        )
     try:
         for query_audio in args.query_audios:
             output_audio = args.output_audio_folder / f"{query_audio.stem}_response.wav"
@@ -53,19 +57,20 @@ def main():
                 speaker,
                 output_audio_path=output_audio,
             )
-            metrics = pipeline.evaluate(output_audio, **results)
-            metrics.update(results.get("metrics", {}))
-            metrics_str = ",".join([f"{metrics[k]}" for k in sorted(metrics.keys())])
-            logger.info(
-                f"Input: {query_audio}, Output: {output_audio}, ASR results: {results['asr_text']}, LLM results: {results['llm_text']}"
-            )
-            with open(args.eval_results_csv, "a") as f:
-                f.write(
-                    f"{query_audio},{config['asr_model']},{config['llm_model']},{config['svs_model']},{config['melody_source']},{config['language']},{config['speaker']},{output_audio},{results['asr_text']},{results['llm_text']},{metrics_str}\n"
                 )
     except Exception as e:
-        logger.error(f"Error in main: {e}")
-        breakpoint()
         raise e

         "--config_path", type=Path, default="config/cli/yaoyin_default.yaml"
     )
     parser.add_argument("--output_audio_folder", type=Path, required=True)
+    parser.add_argument("--eval_results_csv", type=Path, default=None)
     return parser
     character = get_character(character_name)
     prompt_template = character.prompt
     args.output_audio_folder.mkdir(parents=True, exist_ok=True)
+    if config.get("evaluators", {}):
+        if args.eval_results_csv:
+            args.eval_results_csv.parent.mkdir(parents=True, exist_ok=True)
+            with open(args.eval_results_csv, "a") as f:
+                f.write(
+                    f"query_audio,asr_model,llm_model,svs_model,melody_source,language,speaker,output_audio,asr_text,llm_text,metrics\n"
+                )
+        else:
+            logger.warning("No eval_results_csv provided, skipping evaluation")
     try:
         for query_audio in args.query_audios:
             output_audio = args.output_audio_folder / f"{query_audio.stem}_response.wav"
                 speaker,
                 output_audio_path=output_audio,
             )
+            if args.eval_results_csv and config.get("evaluators", {}):
+                metrics = pipeline.evaluate(output_audio, **results)
+                metrics.update(results.get("metrics", {}))
+                metrics_str = ",".join([f"{metrics[k]}" for k in sorted(metrics.keys())])
+                logger.info(
+                    f"Input: {query_audio}, Output: {output_audio}, ASR results: {results['asr_text']}, LLM results: {results['llm_text']}"
                 )
+                with open(args.eval_results_csv, "a") as f:
+                    f.write(
+                        f"{query_audio},{config['asr_model']},{config['llm_model']},{config['svs_model']},{config['melody_source']},{config['language']},{config['speaker']},{output_audio},{results['asr_text']},{results['llm_text']},{metrics_str}\n"
+                    )
     except Exception as e:
+        import traceback
+        logger.error(traceback.format_exc())
         raise e

interface.py CHANGED Viewed

@@ -159,8 +159,8 @@ class GradioInterface:
             return demo
         except Exception as e:
-            print(f"error: {e}")
-            breakpoint()
             return gr.Blocks()
     def update_character(self, character):

             return demo
         except Exception as e:
+            import traceback
+            print(traceback.format_exc())
             return gr.Blocks()
     def update_character(self, character):

modules/llm/minimax.py CHANGED Viewed

@@ -77,7 +77,8 @@ class MiniMaxLLM(AbstractLLMModel):
             )
         except Exception as e:
             print(f"Failed to load MiniMax model: {e}")
-            breakpoint()
             raise e
     def generate(

             )
         except Exception as e:
             print(f"Failed to load MiniMax model: {e}")
+            import traceback
+            print(traceback.format_exc())
             raise e
     def generate(

modules/melody.py CHANGED Viewed

@@ -25,7 +25,7 @@ class MelodyController:
     def get_melody_constraints(self, max_num_phrases: int = 5) -> str:
         """Return a lyric-format prompt based on melody structure."""
         if self.mode == "gen":
-            return ""
         elif self.mode == "sample":
             assert self.database is not None, "Song database is not loaded."
@@ -46,10 +46,11 @@ class MelodyController:
                 )
                 + "\n如果没有足够的信息回答，请使用最少的句子，不要重复、不要扩展、不要加入无关内容。\n"
             )
-            return prompt
         else:
             raise ValueError(f"Unsupported melody mode: {self.mode}")
     def generate_score(
         self, lyrics: str, language: str

     def get_melody_constraints(self, max_num_phrases: int = 5) -> str:
         """Return a lyric-format prompt based on melody structure."""
         if self.mode == "gen":
+            prompt = ""
         elif self.mode == "sample":
             assert self.database is not None, "Song database is not loaded."
                 )
                 + "\n如果没有足够的信息回答，请使用最少的句子，不要重复、不要扩展、不要加入无关内容。\n"
             )
         else:
             raise ValueError(f"Unsupported melody mode: {self.mode}")
+        prompt += "请使用用户输入的语言回答"
+        return prompt
     def generate_score(
         self, lyrics: str, language: str

modules/utils/g2p.py CHANGED Viewed

@@ -3,12 +3,12 @@ import re
 import warnings
 from pathlib import Path
-from kanjiconv import KanjiConv
 from pypinyin import lazy_pinyin
 from .resources.pinyin_dict import PINYIN_DICT
-kanji_to_kana = KanjiConv()
 yoon_map = {
     "ぁ": "あ",
@@ -32,9 +32,9 @@ for plan in ace_phonemes_all_plans["plans"]:
 def preprocess_text(text: str, language: str) -> list[str]:
-    text = text.replace(" ", "")
     if language == "mandarin":
         text_list = to_pinyin(text)
     elif language == "japanese":
         text_list = to_kana(text)
     else:
@@ -117,7 +117,9 @@ def replace_chouonpu(hiragana_text: str) -> str:
 def to_kana(text: str) -> list[str]:
-    hiragana_text = kanji_to_kana.to_hiragana(text.replace(" ", ""))
     hiragana_text_wl = replace_chouonpu(hiragana_text).split(" ")
     final_ls = []
     for subword in hiragana_text_wl:

 import warnings
 from pathlib import Path
+import pykakasi
 from pypinyin import lazy_pinyin
 from .resources.pinyin_dict import PINYIN_DICT
+kks = pykakasi.kakasi()
 yoon_map = {
     "ぁ": "あ",
 def preprocess_text(text: str, language: str) -> list[str]:
     if language == "mandarin":
         text_list = to_pinyin(text)
+        text_list = [pinyin for pinyin in text_list if pinyin != " "]
     elif language == "japanese":
         text_list = to_kana(text)
     else:
 def to_kana(text: str) -> list[str]:
+    hiragana_text = "".join(
+        [item["hira"] for item in kks.convert(text.replace(" ", ""))]
+    )
     hiragana_text_wl = replace_chouonpu(hiragana_text).split(" ")
     final_ls = []
     for subword in hiragana_text_wl: