add asr test

Browse files

Files changed (45) hide show

lib/asr_models/__init__.py +14 -0
lib/asr_models/base_model.py +25 -0
lib/asr_models/evaluator.py +109 -0
lib/asr_models/funasr_nano.py +63 -0
lib/asr_models/funasr_quant.py +41 -0
lib/asr_models/model.py +701 -0
lib/asr_models/whisper.py +44 -0
lib/asr_models/whisper_finetuned.py +65 -0
reports/asr_result_funasr_mlt_nano_librispeech_clean.json +0 -0
reports/asr_result_funasr_mlt_nano_recording.json +597 -0
reports/asr_result_funasr_mlt_nano_wenet_net.json +0 -0
reports/asr_result_funasr_nano_librispeech_clean.json +0 -0
reports/asr_result_funasr_nano_recording.json +597 -0
reports/asr_result_funasr_nano_wenet_net.json +0 -0
reports/asr_result_funasr_quant_librispeech_clean.json +0 -0
reports/asr_result_funasr_quant_recording.json +597 -0
reports/asr_result_funasr_quant_wenet_net.json +0 -0
reports/asr_result_whisper_finetuned_librispeech_clean.json +0 -0
reports/asr_result_whisper_finetuned_recording.json +597 -0
reports/asr_result_whisper_finetuned_wenet_net.json +0 -0
reports/asr_result_whisper_librispeech_clean.json +0 -0
reports/asr_result_whisper_recording.json +597 -0
reports/asr_result_whisper_wenet_net.json +0 -0
scripts/asr_utils.py +6 -4
scripts/batch_run_asr.py +11 -0
scripts/caculate_cer.py +2 -2
scripts/csv/fine-tune_whisper.csv +0 -2
scripts/csv/funasr_quant.csv +0 -86
scripts/csv/whisper.csv +0 -86
scripts/export_onnx.py +18 -13
scripts/model.py +696 -0
scripts/run_funasr.py +2 -2
scripts/run_funasr_mlt_nano.py +160 -0
scripts/run_funasr_nano.py +161 -0
scripts/run_funasr_quant.py +1 -1
scripts/run_whisper.py +1 -2
scripts/run_whisper_finetuned.py +1 -1
scripts/vad.py +12 -0
scripts/wenet_utils.py +63 -0
test_data/{dataset → AIShell/dataset}/dataset.txt +0 -0
test_data/__init__.py +9 -0
test_data/audios.py +44 -33
tests/test_asr/__init__.py +0 -0
tests/test_asr/conftest.py +59 -0
tests/test_asr/test_asr.py +102 -0

lib/asr_models/__init__.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from .base_model import ModelName
+from .whisper import Whisper
+from .whisper_finetuned import WhisperFinetuned
+from .funasr_nano import FunasrNano, FunasrMLTNano
+from .funasr_quant import FunasrQuant
+__all__ = [
+    "ModelName",
+    "Whisper",
+    "WhisperFinetuned",
+    "FunasrNano",
+    "FunasrMLTNano",
+    "FunasrQuant",
+]

lib/asr_models/base_model.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from abc import ABC, abstractmethod
+from enum import Enum
+class AbstractASRModel(ABC):
+    def __init__(self, device='cpu'):
+        self.device = device
+        self.name = "AbstractASRModel"
+    @abstractmethod
+    def load(self, model_dir, language):
+        raise NotImplementedError
+    @abstractmethod
+    def transcribe(self, wav, language):
+        raise NotImplementedError
+class ModelName(Enum):
+    WHISPER = "whisper"
+    WHISPER_FINETUNED = "whisper_finetuned"
+    FUNASR_NANO = "funasr_nano"
+    FUNASR_MLT_NANO = "funasr_mlt_nano"
+    FUNASR_QUANT = "funasr_quant"

lib/asr_models/evaluator.py ADDED Viewed

	@@ -0,0 +1,109 @@

+import re
+from jiwer import wer, cer
+import cn2an
+from whisper_normalizer.english import EnglishTextNormalizer
+from whisper_normalizer.basic import BasicTextNormalizer
+class ASREvaluator:
+    def __init__(self):
+        # 官方英文标准化：处理拼写、缩写、标点
+        self.en_normalizer = EnglishTextNormalizer()
+        # 官方基础标准化：主要用于非英文，处理标点、大小写、多余空格
+        self.zh_normalizer = BasicTextNormalizer()
+    def clean_zh_text(self, text):
+        """针对中文的特殊处理"""
+        # print("text before clean:", text)
+        if re.search(r"\d", text):
+            text = cn2an.transform(text, "an2cn")
+        # 1. 基础标准化 (去标点、繁转简等)
+        text = self.zh_normalizer(text)
+        # 2. 去除所有空格（防止原文本中自带的空格干扰）
+        text = re.sub(r'\s+', '', text)
+        # print("text after clean:", text)
+        return text
+    def clean_en_text(self, text):
+        """针对英文的标准化"""
+        # print("text before clean:", text)
+        text = self.en_normalizer(text)
+        # print("text after clean:", text)
+        return text
+    def compute_en_wer(self, data):
+        """计算英文词错误率 (WER)
+        data = ["{
+                "index": 1,
+                "audio_path": "xxx.wav",
+                "reference": "text",
+                "inference_time": 0.123,
+                "predicts": "test"
+            }]
+        """
+        refs = []
+        preds = []
+        for item in data:
+            ref_clean = self.clean_en_text(item["reference"])
+            pred_clean = self.clean_en_text(item["predicts"])
+            if ref_clean.strip(): # 过滤掉空的参考文本
+                refs.append(ref_clean)
+                preds.append(pred_clean)
+        score = wer(refs, preds)
+        return score
+    def compute_zh_cer(self, data):
+        """计算中文字错误率 (CER)
+        data = ["{
+                "index": 1,
+                "audio_path": "xxx.wav",
+                "reference": "text",
+                "inference_time": 0.123,
+                "predicts": "test"
+            }]
+        """
+        # 注意：在中文评估中，将句子拆解为“字”后计算 WER，结果等同于 CER
+        refs = []
+        preds = []
+        for item in data:
+            ref_clean = self.clean_zh_text(item["reference"])
+            pred_clean = self.clean_zh_text(item["predicts"])
+            if ref_clean.strip(): # 过滤掉空的参考文本
+                refs.append(ref_clean)
+                preds.append(pred_clean)
+        score = cer(refs, preds)
+        return score
+def compute(model_name, data_name, results, language):
+    evaluator = ASREvaluator()
+    if language == "zh":
+        cer = evaluator.compute_zh_cer(results)
+        res = f"Model: {model_name}, Dataset: {data_name}, data {len(results)}, CER: {cer:.2%}"
+        print(res)
+        return res
+    else:
+        wer = evaluator.compute_en_wer(results)
+        res = f"Model: {model_name}, Dataset: {data_name}, data {len(results)}, WER: {wer:.2%}"
+        print(res)
+        return res
+# ================= 使用示例 =================
+if __name__ == "__main__":
+    import json
+    from pathlib import Path
+    evaluator = ASREvaluator()
+    print(evaluator.clean_zh_text("相比sota模型，我们的方法在小样本场景下召回率高出十二个百分点，且参数量仅为其三分之一。"))
+    # result_file = Path("/Users/jeqin/work/code/TestTranslator/reports/whisper_libri_en.json")
+    # with open(result_file, "r", encoding="utf-8") as f:
+    #     data = json.load(f)
+    # en_wer = evaluator.compute_en_wer(data)
+    # print(f"{result_file.name} WER: {en_wer:.2%}")
+    reports = Path("/Users/jeqin/work/code/TestTranslator/reports")
+    for file in reports.glob("*wenet_net.json"):
+        with open(file) as f:
+            data = json.load(f)
+            compute(model_name=file.name, data_name="wenet_net",results=data, language="zh")

lib/asr_models/funasr_nano.py ADDED Viewed

	@@ -0,0 +1,63 @@

+from funasr import AutoModel
+from lib.asr_models.base_model import AbstractASRModel, ModelName
+from lib.utils import Timer
+from environment import PROJECT_DIR
+MODEL_DIR = "/Users/jeqin/work/code/Fun-ASR-Nano-2512"
+MODEL_MLT_DIR = "/Users/jeqin/work/code/Fun-ASR-MLT-Nano-2512"
+language_map = {
+    "en": "英文",
+    "zh": "中文",
+}
+class FunasrNano(AbstractASRModel):
+    def __init__(self, device='mps'):
+        super().__init__(device)
+        self.name = ModelName.FUNASR_NANO
+    def load(self, model_dir=MODEL_DIR, language=""):
+        with Timer("Loading Fun-ASR-Nano model"):
+            self.model = AutoModel(
+                model=str(model_dir),
+                trust_remote_code=True,
+                remote_code=str(PROJECT_DIR / "scripts"/"model.py"),
+                device=self.device,
+                disable_update=True,
+            )
+    def transcribe(self, wav, language="zh"):
+        language = language_map.get(language)
+        with Timer("Transcribing audio") as t:
+            res = self.model.generate(input=[str(wav)], cache={}, batch_size=1, language=language, itn=True)
+            # res = self.model.generate(
+            #     input=[str(wav)],
+            #     cache={},
+            #     # batch_size=1,
+            #     hotwords=["开放时间", "llama", "decode"],
+            #     # 中文、英文、日文 for Fun-ASR-Nano-2512
+            #     # 中文、英文、粤语、日文、韩文、越南语、印尼语、泰语、马来语、菲律宾语、阿拉伯语、
+            #     # 印地语、保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、芬兰语、希腊语、
+            #     # 匈牙利语、爱尔兰语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、
+            #     # 斯洛伐克语、斯洛文尼亚语、瑞典语 for Fun-ASR-MLT-Nano-2512
+            #     language=language,
+            #     itn=True,  # or False
+            # )
+            text = res[0]["text"]
+        return text, t.duration
+class FunasrMLTNano(FunasrNano):
+    def __init__(self, device='mps'):
+        super().__init__(device)
+        self.name = ModelName.FUNASR_MLT_NANO
+    def load(self, model_dir=MODEL_MLT_DIR, language=""):
+        super().load(model_dir, language)
+if __name__ == "__main__":
+    model = FunasrMLTNano()
+    model.load()
+    text, cost = model.transcribe('../../test_data/recordings/1.wav', language="zh")
+    print("inference time: ", cost)
+    print(text)

lib/asr_models/funasr_quant.py ADDED Viewed

	@@ -0,0 +1,41 @@

+from pathlib import Path
+from funasr_onnx import SeacoParaformer, CT_Transformer, Fsmn_vad
+from lib.utils import Timer
+from lib.asr_models.base_model import AbstractASRModel, ModelName
+MODEL_DIR = "/Users/jeqin/work/code/Translator/python_server/moyoyo_asr_models"
+class FunasrQuant(AbstractASRModel):
+    def __init__(self, device='mps'):
+        super().__init__(device=device)
+        self.name = ModelName.FUNASR_QUANT
+    def load(self, model_dir=MODEL_DIR, language=""):
+        quantize=True
+        with Timer("Loading Fun-ASR-Quant model"):
+            model_dir = Path(model_dir)
+            asr_model_path = model_dir / 'speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch'
+            vad_model_path = model_dir / 'speech_fsmn_vad_zh-cn-16k-common-pytorch'
+            punc_model_path = model_dir / 'punc_ct-transformer_cn-en-common-vocab471067-large'
+            self.vad_model = Fsmn_vad(vad_model_path, quantize=quantize)
+            self.asr_model = SeacoParaformer(asr_model_path, quantize=quantize)
+            self.punc_model = CT_Transformer(punc_model_path, quantize=quantize)
+    def transcribe(self, wav, language="zh"):
+        with Timer("Transcribing audio") as t:
+            asr_res = self.asr_model(str(wav), hotwords="", language=language)
+            text = ""
+            if len(asr_res) > 0:
+                asr_text = asr_res[0]["preds"]
+                result = self.punc_model(asr_text)
+                text = result[0]
+        return text, t.duration
+if __name__ == "__main__":
+    model = FunasrQuant(device='mps')
+    model.load()
+    text, cost = model.transcribe('../../test_data/recordings/1.wav', language="en")
+    print("inference time: ", cost)
+    print(text)

lib/asr_models/model.py ADDED Viewed

	@@ -0,0 +1,701 @@

+import json
+import logging
+import os
+import random
+import re
+import string
+import time
+import traceback
+import torch
+import torch.nn as nn
+from funasr import AutoModel
+from funasr.metrics.compute_acc import compute_accuracy
+from funasr.register import tables
+from funasr.train_utils.device_funcs import force_gatherable, to_device
+from funasr.utils.datadir_writer import DatadirWriter
+from funasr.utils.load_utils import extract_fbank, load_audio_text_image_video
+from transformers import AutoConfig, AutoModelForCausalLM
+dtype_map = {"bf16": torch.bfloat16, "fp16": torch.float16, "fp32": torch.float32}
+@tables.register("model_classes", "FunASRNano")
+class FunASRNano(nn.Module):
+    def __init__(
+        self,
+        audio_encoder: str = None,
+        audio_encoder_conf: dict = None,
+        audio_adaptor: str = None,
+        audio_adaptor_conf: dict = None,
+        llm: str = None,
+        llm_conf: dict = None,
+        input_size: int = 80,
+        length_normalized_loss: bool = False,
+        **kwargs,
+    ):
+        super().__init__()
+        # audio encoder
+        hub = audio_encoder_conf.get("hub", None)
+        self.audio_encoder_activation_checkpoint = audio_encoder_conf.get(
+            "activation_checkpoint", False
+        )
+        if hub == "ms":
+            model = AutoModel(model=audio_encoder, model_revision="master")
+            audio_encoder_output_size = (
+                model.model.encoder_output_size
+                if hasattr(model.model, "encoder_output_size")
+                else -1
+            )
+            audio_encoder = (
+                model.model.model.encoder
+                if hasattr(model.model, "model")
+                else model.model.encoder
+            )
+        else:
+            encoder_class = tables.encoder_classes.get(audio_encoder)
+            audio_encoder = encoder_class(input_size=input_size, **audio_encoder_conf)
+            audio_encoder_output_size = audio_encoder.output_size()
+        freeze = audio_encoder_conf.get("freeze", True)
+        freeze_layer_num = int(audio_encoder_conf.get("freeze_layer_num", -1))
+        if freeze:
+            for name, param in audio_encoder.named_parameters():
+                param.requires_grad = False
+            audio_encoder.eval()
+        self.audio_encoder = audio_encoder
+        # llm
+        self.llm = None
+        init_param_path = llm_conf.get("init_param_path", None)
+        llm_dim = None
+        llm_load_kwargs = llm_conf.get("load_kwargs", {})
+        config = AutoConfig.from_pretrained(init_param_path)
+        model = AutoModelForCausalLM.from_config(config, **llm_load_kwargs)
+        freeze = llm_conf.get("freeze", True)
+        if freeze:
+            for name, param in model.named_parameters():
+                param.requires_grad = False
+            model.eval()
+        logging.info(f"use_lora: {llm_conf.get('use_lora', False)}")
+        if llm_conf.get("use_lora", False):
+            from omegaconf import DictConfig, OmegaConf
+            lora_conf = llm_conf.get("lora_conf", {})
+            if isinstance(lora_conf, (OmegaConf, DictConfig)):
+                lora_conf = OmegaConf.to_container(lora_conf, resolve=True)
+            from peft import LoraConfig, PeftModel, get_peft_model
+            lora_init_param_path = lora_conf.get("init_param_path", None)
+            if lora_init_param_path is not None:
+                logging.info(f"lora_init_param_path: {lora_init_param_path}")
+                model = PeftModel.from_pretrained(model, lora_init_param_path)
+                for name, param in model.named_parameters():
+                    if not lora_conf.get("freeze_lora", False):
+                        if "lora_" in name:
+                            param.requires_grad = True
+            else:
+                peft_config = LoraConfig(**lora_conf)
+                model = get_peft_model(model, peft_config)
+            model.print_trainable_parameters()
+        if llm_conf.get("activation_checkpoint", False):
+            model.gradient_checkpointing_enable()
+        self.llm_dtype = llm_conf.get("llm_dtype", "fp32")
+        self.llm = model.to(dtype_map[self.llm_dtype])
+        llm_dim = model.get_input_embeddings().weight.shape[-1]
+        # adaptor
+        adaptor_class = tables.adaptor_classes.get(audio_adaptor)
+        if audio_encoder_output_size > 0:
+            audio_adaptor_conf["encoder_dim"] = audio_encoder_output_size
+        audio_adaptor_conf["llm_dim"] = (
+            llm_dim if llm_dim is not None else audio_adaptor_conf["llm_dim"]
+        )
+        audio_adaptor = adaptor_class(**audio_adaptor_conf)
+        freeze = audio_adaptor_conf.get("freeze", False)
+        if freeze:
+            for name, param in audio_adaptor.named_parameters():
+                param.requires_grad = False
+            audio_adaptor.eval()
+        self.audio_adaptor = audio_adaptor
+        self.length_normalized_loss = length_normalized_loss
+        self.feat_permute = audio_encoder_conf.get("feat_permute", True)
+        rank = int(os.environ.get("RANK", 0))
+        logging.info(f"rank: {rank}, model is builded.")
+    def forward(
+        self,
+        speech: torch.Tensor = None,
+        speech_lengths: torch.Tensor = None,
+        input_ids: torch.Tensor = None,
+        attention_mask: torch.Tensor = None,
+        labels_ids: torch.Tensor = None,
+        fbank_beg: torch.Tensor = None,
+        fbank_mask: torch.Tensor = None,
+        **kwargs,
+    ):
+        batch_size, token_num = input_ids.shape
+        stats = {}
+        input_ids[input_ids < 0] = 0
+        inputs_embeds = self.llm.model.get_input_embeddings()(input_ids)
+        if speech is not None:
+            if len(speech_lengths.size()) > 1:
+                speech_lengths = speech_lengths[:, 0]
+            batch_size_speech, frames, _ = speech.shape
+            # audio encoder
+            if self.audio_encoder_activation_checkpoint:
+                from torch.utils.checkpoint import checkpoint
+                encoder_out, encoder_out_lens = checkpoint(
+                    self.encode, speech, speech_lengths, use_reentrant=False
+                )
+            else:
+                encoder_out, encoder_out_lens = self.encode(speech, speech_lengths)
+            # audio_adaptor
+            encoder_out, encoder_out_lens = self.audio_adaptor(
+                encoder_out, encoder_out_lens
+            )
+            batch_size, token_num, dims = inputs_embeds.shape
+            fake_token_len = kwargs.get("fake_token_len")
+            fake_token_len[fake_token_len < 0] = 0
+            fbank_beg[fbank_beg < 0] = 0
+            speech_idx = 0
+            for batch_idx in range(batch_size):
+                for turn_id in range(fbank_beg.shape[1]):
+                    fbank_beg_idx = fbank_beg[batch_idx, turn_id].item()
+                    if fbank_beg_idx > 0:
+                        speech_token_len = fake_token_len[batch_idx, turn_id]
+                        speech_token = encoder_out[speech_idx, :speech_token_len, :]
+                        try:
+                            inputs_embeds[
+                                batch_idx,
+                                fbank_beg_idx : fbank_beg_idx + speech_token_len,
+                                :,
+                            ] = speech_token
+                        except Exception as e:
+                            logging.error(f"{str(e)}, {traceback.format_exc()}")
+                            logging.info(
+                                f"batch_idx: {batch_idx}, inputs_embeds: {inputs_embeds.shape}, fbank_beg_idx: {fbank_beg_idx}, speech_token_len: {speech_token_len}, encoder_out: {encoder_out.shape}, encoder_out_lens: {encoder_out_lens}, fake_token_len: {fake_token_len}, speech_lengths: {speech_lengths}"
+                            )
+                            speech_token_len = encoder_out_lens[speech_idx].item()
+                            speech_token = encoder_out[speech_idx, :speech_token_len, :]
+                            inputs_embeds[
+                                batch_idx,
+                                fbank_beg_idx : fbank_beg_idx + speech_token_len,
+                                :,
+                            ] = speech_token
+                        speech_idx += 1
+            stats["batch_size_speech"] = batch_size_speech
+            stats["batch_size_x_frames"] = frames * batch_size_speech
+            stats["batch_size_real_frames"] = speech_lengths.sum().item()
+            stats["padding_frames"] = (
+                stats["batch_size_x_frames"] - stats["batch_size_real_frames"]
+            )
+        device_type = next(self.parameters()).device.type
+        with torch.autocast(
+            device_type=device_type if device_type in ["cuda", "mps"] else "cpu",
+            enabled=True if self.llm_dtype != "fp32" else False,
+            dtype=dtype_map[self.llm_dtype],
+        ):
+            labels_ids[labels_ids == -1] = -100
+            attention_mask[attention_mask < 0] = 0
+            model_outputs = self.llm(
+                inputs_embeds=inputs_embeds.to(dtype_map[self.llm_dtype]),
+                attention_mask=attention_mask,
+                labels=labels_ids,
+            )
+            loss = model_outputs.loss
+        with torch.no_grad():
+            preds = torch.argmax(model_outputs.logits, -1)
+            acc_att = compute_accuracy(
+                preds[:, :-1], labels_ids[:, 1:], ignore_label=-100
+            )
+            stats["acc"] = acc_att
+        stats["loss"] = torch.clone(loss.detach())
+        stats["batch_size"] = batch_size
+        stats["batch_size_x_tokens"] = token_num * batch_size
+        stats["batch_size_real_tokens"] = attention_mask.sum().item()
+        stats["padding_tokens"] = (
+            stats["batch_size_x_tokens"] - stats["batch_size_real_tokens"]
+        )
+        dialog_turns = (fbank_beg > 0).sum(-1)
+        dialog_turns_max = torch.max(dialog_turns).int().item()
+        dialog_turns_avg = dialog_turns.sum().item() / batch_size
+        stats["dialog_turns_max"] = dialog_turns_max
+        stats["dialog_turns_avg"] = dialog_turns_avg
+        # force_gatherable: to-device and to-tensor if scalar for DataParallel
+        if self.length_normalized_loss:
+            batch_size = int((labels_ids > 0 + 1).sum())
+        loss, stats, weight = force_gatherable((loss, stats, batch_size), loss.device)
+        return loss, stats, weight
+    def forward_export(self, speech, speech_lengths, **kwargs):
+        x, olens = self.audio_encoder(speech, speech_lengths)
+        encoder_out, encoder_out_lens = self.audio_adaptor(x, olens)
+        return encoder_out, encoder_out_lens
+    def encode(self, speech, speech_lengths):
+        # audio encoder
+        if self.feat_permute:
+            encoder_out, encoder_out_lens = self.audio_encoder(
+                speech.permute(0, 2, 1), speech_lengths
+            )
+        else:
+            encoder_out, encoder_out_lens = self.audio_encoder(speech, speech_lengths)
+        return encoder_out, encoder_out_lens
+    def data_template(self, data):
+        system, user, assistant = [], [], []
+        for i, item in enumerate(data):
+            role = item["role"]
+            content = item["content"]
+            if role == "system":
+                system.append(content)
+            elif role == "user":
+                if "audio" in item:
+                    audio = item["audio"]
+                    content = [content, audio]
+                user.append(content)
+            elif role == "assistant":
+                assistant.append(content)
+        system = system * len(user)
+        contents = {
+            "system": system,
+            "user": user,
+            "assistant": assistant,
+        }
+        return contents
+    def data_load_speech(
+        self, contents: dict, tokenizer, frontend, meta_data={}, **kwargs
+    ):
+        system = contents["system"]
+        user = contents["user"]
+        assistant = contents["assistant"]
+        pattern = re.compile(r"(<\|startofspeech\|>.*?<\|endofspeech\|>)")
+        do_think = True
+        sys_prompt = True
+        if "dataset_conf" in kwargs:
+            do_think = kwargs["dataset_conf"].get("do_think", True)
+            sys_prompt = kwargs["dataset_conf"].get("sys_prompt", True)
+        input_ids, labels, fbank, fbank_lens, fbank_mask, fbank_beg, fake_token_len = (
+            [],
+            [],
+            [],
+            [],
+            [],
+            [],
+            [],
+        )
+        input_source_ids = []
+        for i, (system_prompt, user_prompt, target_out) in enumerate(
+            zip(system, user, assistant)
+        ):
+            if i >= kwargs.get("multiturn_num_max", 5):
+                break
+            if len(input_ids) > kwargs.get("max_token_length", 1500):
+                break
+            if isinstance(user_prompt, (list, tuple)):
+                user_prompt, audio = user_prompt
+            if i == 0:
+                if kwargs.get("infer_with_assistant_input", False):
+                    source_input = f"<|im_start|>system\n{system_prompt}<|im_end|>\n<|im_start|>user\n{user_prompt}"
+                    if not sys_prompt:
+                        source_input = f"<|im_start|>user\n{user_prompt}"
+                else:
+                    source_input = f"<|im_start|>system\n{system_prompt}<|im_end|>\n<|im_start|>user\n{user_prompt}<|im_end|>\n<|im_start|>assistant\n"
+                    if not sys_prompt:
+                        source_input = f"<|im_start|>user\n{user_prompt}<|im_end|>\n<|im_start|>assistant\n"
+            else:
+                if kwargs.get("infer_with_assistant_input", False):
+                    source_input = f"<|im_start|>user\n{user_prompt}"
+                else:
+                    source_input = f"<|im_start|>user\n{user_prompt}<|im_end|>\n<|im_start|>assistant\n"
+            if not do_think:
+                source_input += "<think>\n\n</think>\n\n"
+            splits = pattern.split(source_input)
+            source_ids = []
+            fbank_mask_i = []
+            fake_token_len_i = 0
+            fbank_beg_i = -1
+            speech, speech_lengths = [], []
+            for k, sub_str in enumerate(splits):
+                if not sub_str.startswith("<|startofspeech|>"):
+                    sub_token = tokenizer.encode(sub_str)
+                    source_ids += sub_token
+                    fbank_mask_i += [0] * len(sub_token)
+                else:
+                    sub_str = sub_str.replace("<|startofspeech|>", "").replace(
+                        "<|endofspeech|>", ""
+                    )
+                    if sub_str.startswith("!"):
+                        sub_str = sub_str[1:]
+                        if sub_str.startswith("!"):  # !!: audio sample point
+                            sub_str = audio
+                        try:
+                            time1 = time.perf_counter()
+                            data_src = load_audio_text_image_video(
+                                sub_str, fs=frontend.fs, **kwargs
+                            )
+                            time2 = time.perf_counter()
+                            meta_data["load_data"] = f"{time2 - time1:0.3f}"
+                        except Exception as e:
+                            logging.error(
+                                f"Loading wav failed! {str(e)}, {traceback.format_exc()}"
+                            )
+                        speech, speech_lengths = extract_fbank(
+                            data_src,
+                            data_type=kwargs.get("data_type", "sound"),
+                            frontend=frontend,
+                            is_final=True,
+                        )  # speech: [b, T, d]
+                        time3 = time.perf_counter()
+                        meta_data["extract_feat"] = f"{time3 - time2:0.3f}"
+                        meta_data["batch_data_time"] = (
+                            speech_lengths.sum().item()
+                            * frontend.frame_shift
+                            * frontend.lfr_n
+                            / 1000
+                        )
+                        if self.feat_permute:
+                            speech = speech.permute(0, 2, 1)
+                        olens = 1 + (speech_lengths[0].item() - 3 + 2 * 1) // 2
+                        olens = 1 + (olens - 3 + 2 * 1) // 2
+                        fake_token_len_i = (olens - 1) // 2 + 1
+                        fake_token = [0] * fake_token_len_i
+                        fbank_beg_i = len(source_ids)
+                        source_ids += fake_token
+                        fbank_mask_i += [1] * len(fake_token)
+            fbank_beg += [fbank_beg_i + len(input_ids)]
+            fake_token_len += [fake_token_len_i]
+            source_mask = [-100] * len(source_ids)
+            target_out = f"{target_out}<|im_end|>"
+            target_ids = tokenizer.encode(target_out)
+            input_source_ids = input_ids + source_ids
+            input_ids += source_ids + target_ids
+            labels += source_mask + target_ids
+            fbank_mask += fbank_mask_i
+            if len(speech) > 0:
+                fbank.append(speech[0, :, :])
+                fbank_lens.append(speech_lengths)
+        input_ids = torch.tensor(
+            input_ids, dtype=torch.int64
+        )  # [: self.max_token_length]
+        attention_mask = torch.tensor([1] * len(input_ids), dtype=torch.int32)
+        labels = torch.tensor(labels, dtype=torch.int64)  # [: self.max_token_length]
+        fbank_mask = torch.tensor(fbank_mask, dtype=torch.float32)
+        fbank_beg = torch.tensor(fbank_beg, dtype=torch.int32)
+        fake_token_len = torch.tensor(fake_token_len, dtype=torch.int32)
+        source_ids = torch.tensor(input_source_ids, dtype=torch.int64)
+        target_ids = torch.tensor(target_ids, dtype=torch.int64)
+        if len(fbank) > 0:
+            speech = torch.nn.utils.rnn.pad_sequence(
+                fbank, batch_first=True, padding_value=0.0
+            )
+            speech_lengths = torch.nn.utils.rnn.pad_sequence(
+                fbank_lens, batch_first=True, padding_value=-1
+            )
+        else:
+            speech = []
+            speech_lengths = []
+        output = {
+            "speech": speech,
+            "speech_lengths": speech_lengths,
+            "fbank_mask": fbank_mask[None, :],
+            "fbank_beg": fbank_beg[None,],
+            "fake_token_len": fake_token_len[None, :],
+            "input_ids": input_ids[None,],
+            "attention_mask": attention_mask[None,],
+            "labels_ids": labels,
+            "source_ids": source_ids[None, :],
+            "target_ids": target_ids[None, :],
+        }
+        return output
+    def inference_prepare(
+        self,
+        data_in,
+        data_lengths=None,
+        key: list = None,
+        tokenizer=None,
+        frontend=None,
+        **kwargs,
+    ):
+        meta_data = {}
+        if kwargs.get("batch_size", 1) > 1:
+            raise NotImplementedError("batch decoding is not implemented")
+        contents = self.data_template(data_in[0])
+        output = self.data_load_speech(
+            contents, tokenizer, frontend, meta_data=meta_data, **kwargs
+        )
+        batch = to_device(output, kwargs["device"])
+        # audio encoder
+        speech = batch["speech"]
+        if len(speech) > 0:
+            if "audio_embedding" in kwargs and "audio_embedding_lens" in kwargs:
+                encoder_out = kwargs["audio_embedding"]
+                encoder_out_lens = kwargs["audio_embedding_lens"]
+            else:
+                speech_lengths = batch["speech_lengths"][:, 0]
+                # fp16
+                if kwargs.get("fp16", False):
+                    speech = speech.to(torch.float16)
+                elif kwargs.get("bf16", False):
+                    speech = speech.to(torch.bfloat16)
+                # audio encoder
+                encoder_out, encoder_out_lens = self.encode(speech, speech_lengths)
+                # audio_adaptor
+                encoder_out, encoder_out_lens = self.audio_adaptor(
+                    encoder_out, encoder_out_lens
+                )
+                meta_data["audio_adaptor_out"] = encoder_out
+                meta_data["audio_adaptor_out_lens"] = encoder_out_lens
+        input_ids = batch["input_ids"]
+        source_ids = batch["source_ids"]
+        fbank_beg = batch["fbank_beg"]
+        fake_token_len = batch["fake_token_len"]
+        if not kwargs.get("tearchforing", False):
+            input_ids = source_ids
+        input_ids[input_ids < 0] = 0
+        inputs_embeds = self.llm.model.get_input_embeddings()(input_ids)
+        batch_size, token_num, dims = inputs_embeds.shape
+        fake_token_len[fake_token_len < 0] = 0
+        fbank_beg[fbank_beg < 0] = 0
+        speech_idx = 0
+        for batch_idx in range(batch_size):
+            for turn_id in range(fbank_beg.shape[1]):
+                fbank_beg_idx = fbank_beg[batch_idx, turn_id].item()
+                if fbank_beg_idx > 0:
+                    speech_token_len = fake_token_len[batch_idx, turn_id]
+                    speech_token = encoder_out[speech_idx, :speech_token_len, :]
+                    try:
+                        inputs_embeds[
+                            batch_idx,
+                            fbank_beg_idx : fbank_beg_idx + speech_token_len,
+                            :,
+                        ] = speech_token
+                    except Exception as e:
+                        #
+                        logging.error(f"{str(e)}, {traceback.format_exc()}")
+                        logging.info(
+                            f"batch_idx: {batch_idx}, inputs_embeds: {inputs_embeds.shape}, fbank_beg_idx: {fbank_beg_idx}, speech_token_len: {speech_token_len}, encoder_out: {encoder_out.shape}, encoder_out_lens: {encoder_out_lens}, fake_token_len: {fake_token_len}, speech_lengths: {speech_lengths}"
+                        )
+                        speech_token_len = encoder_out_lens[speech_idx].item()
+                        speech_token = encoder_out[speech_idx, :speech_token_len, :]
+                        inputs_embeds[
+                            batch_idx,
+                            fbank_beg_idx : fbank_beg_idx + speech_token_len,
+                            :,
+                        ] = speech_token
+                    speech_idx += 1
+        return inputs_embeds, contents, batch, source_ids, meta_data
+    def inference(
+        self,
+        data_in,
+        data_lengths=None,
+        key: list = None,
+        tokenizer=None,
+        frontend=None,
+        **kwargs,
+    ):
+        hotwords = kwargs.get("hotwords", [])
+        if len(hotwords) > 0:
+            hotwords = ", ".join(hotwords)
+            prompt = f"请结合上下文信息，更加准确地完成语音转写任务。如果没有相关信息，我们会留空。\n\n\n**上下文信息：**\n\n\n"
+            prompt += f"热词列表：[{hotwords}]\n"
+        else:
+            prompt = ""
+        language = kwargs.get("language", None)
+        if language is None:
+            prompt += "语音转写"
+        else:
+            prompt += f"语音转写成{language}"
+        itn = kwargs.get("itn", True)
+        if not itn:
+            prompt += "，不进行文本规整"
+        prompt += "："
+        new_data_in = []
+        for data in data_in:
+            if isinstance(data, str):
+                new_data_in.append(
+                    [
+                        {"role": "system", "content": "You are a helpful assistant."},
+                        {
+                            "role": "user",
+                            "content": f"{prompt}<|startofspeech|>!{data}<|endofspeech|>",
+                        },
+                        {"role": "assistant", "content": "null"},
+                    ]
+                )
+            elif isinstance(data, torch.Tensor):
+                new_data_in.append(
+                    [
+                        {"role": "system", "content": "You are a helpful assistant."},
+                        {
+                            "role": "user",
+                            "content": f"{prompt}<|startofspeech|>!!<|endofspeech|>",
+                            "audio": data,
+                        },
+                        {"role": "assistant", "content": "null"},
+                    ]
+                )
+        data_in = new_data_in
+        if key is None:
+            key = []
+            for _ in data_in:
+                chars = string.ascii_letters + string.digits
+                key.append(
+                    "rand_key_" + "".join(random.choice(chars) for _ in range(13))
+                )
+        return self.inference_llm(
+            data_in,
+            data_lengths=data_lengths,
+            key=key,
+            tokenizer=tokenizer,
+            frontend=frontend,
+            **kwargs,
+        )
+    def inference_llm(
+        self,
+        data_in,
+        data_lengths=None,
+        key: list = None,
+        tokenizer=None,
+        frontend=None,
+        **kwargs,
+    ):
+        inputs_embeds, contents, batch, source_ids, meta_data = self.inference_prepare(
+            data_in, data_lengths, key, tokenizer, frontend, **kwargs
+        )
+        llm_dtype = kwargs.get("llm_dtype", "fp32")
+        if llm_dtype == "fp32":
+            llm_dtype = "fp16" if kwargs.get("fp16", False) else llm_dtype
+            llm_dtype = "bf16" if kwargs.get("bf16", False) else llm_dtype
+        device_type = torch.device(kwargs.get("device", "cuda")).type
+        with torch.autocast(
+            device_type=device_type if device_type in ["cuda", "mps"] else "cpu",
+            enabled=True if llm_dtype != "fp32" else False,
+            dtype=dtype_map[llm_dtype]
+        ):
+            label = contents["assistant"][-1]
+            self.llm = self.llm.to(dtype_map[llm_dtype])
+            inputs_embeds = inputs_embeds.to(dtype_map[llm_dtype])
+            llm_kwargs = kwargs.get("llm_kwargs", {})
+            if not kwargs.get("teachforing", False):
+                generated_ids = self.llm.generate(
+                    inputs_embeds=inputs_embeds,
+                    max_new_tokens=kwargs.get("max_length", 512),
+                    **llm_kwargs,
+                )
+                response = tokenizer.batch_decode(
+                    generated_ids,
+                    skip_special_tokens=kwargs.get("skip_special_tokens", True),
+                )[0]
+                loss = None
+            else:
+                labels_ids = batch["labels_ids"]
+                labels_ids[labels_ids == -1] = -100
+                attention_mask = batch.get("attention_mask", None)
+                model_outputs = self.llm(
+                    inputs_embeds=inputs_embeds,
+                    attention_mask=attention_mask,
+                    labels=labels_ids,
+                    **llm_kwargs,
+                )
+                preds = torch.argmax(model_outputs.logits, -1)[:, source_ids.shape[1] :]
+                response = tokenizer.batch_decode(
+                    preds,
+                    add_special_tokens=False,
+                    skip_special_tokens=kwargs.get("skip_special_tokens", True),
+                )[0]
+                loss = model_outputs.loss.item()
+        ibest_writer = None
+        if kwargs.get("output_dir") is not None:
+            if not hasattr(self, "writer"):
+                self.writer = DatadirWriter(kwargs.get("output_dir"))
+            ibest_writer = self.writer[f"{0 + 1}best_recog"]
+        results = []
+        response_clean = re.sub(r"[^\w\s\u3000\u4e00-\u9fff]+", "", response)
+        result_i = {
+            "key": key[0],
+            "text": re.sub(r'\s+', ' ', response.replace("/sil", " ")),
+            "text_tn": response_clean,
+            "label": label,
+        }
+        if loss is not None:
+            result_i["loss"] = loss
+        results.append(result_i)
+        if ibest_writer is not None:
+            ibest_writer["text"][key[0]] = response.replace("\n", " ")
+            ibest_writer["label"][key[0]] = label.replace("\n", " ")
+            ibest_writer["text_tn"][key[0]] = response_clean
+        return results, meta_data
+    @staticmethod
+    def from_pretrained(model: str = None, **kwargs):
+        from funasr import AutoModel
+        model, kwargs = AutoModel.build_model(
+            model=model, trust_remote_code=True, **kwargs
+        )
+        return model, kwargs

lib/asr_models/whisper.py ADDED Viewed

	@@ -0,0 +1,44 @@

+from pywhispercpp.model import Model
+from lib.utils import Timer
+from lib.asr_models.base_model import AbstractASRModel, ModelName
+MODEL_DIR = "/Users/jeqin/work/code/Translator/python_server/moyoyo_asr_models"
+class Whisper(AbstractASRModel):
+    def __init__(self, device='mps'):
+        super().__init__(device)
+        self.name = ModelName.WHISPER
+    def load(self, model_dir=MODEL_DIR, language="en", whisper_model='large-v3-turbo-q5_0'):
+        with Timer("Loading Whisper model"):
+            self.model = Model(
+                model=whisper_model,
+                models_dir=model_dir,
+                print_realtime=False,
+                print_progress=False,
+                print_timestamps=False,
+                translate=False,
+                # beam_search=1,
+                temperature=0.,
+                no_context=True
+            )
+    def transcribe(self, wav, language="en"):
+        with Timer("Transcribing audio") as t:
+            if language == "zh":
+                init_prompt = "以下是普通话句子，这是一段会议内容。"
+                output = self.model.transcribe(str(wav), language=language, initial_prompt=init_prompt)
+            else:
+                output = self.model.transcribe(str(wav), language=language)
+            text = " ".join([a.text for a in output])
+        return text, t.duration
+if __name__ == "__main__":
+    model = Whisper()
+    model.load()
+    text, cost = model.transcribe('../../test_data/recordings/1.wav', language="zh")
+    print("inference time: ", cost)
+    print(text)

lib/asr_models/whisper_finetuned.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import torch
+import librosa
+from transformers import WhisperForConditionalGeneration, WhisperProcessor
+from lib.utils import Timer
+from lib.asr_models.base_model import AbstractASRModel, ModelName
+MODEL_DIR = "/Users/jeqin/Downloads/whisper-large-v3-turbo-finetune_1219"
+class WhisperFinetuned(AbstractASRModel):
+    def __init__(self, device='mps'):
+        super().__init__(device)
+        self.name = ModelName.WHISPER_FINETUNED
+    def load(self, model_dir=MODEL_DIR, language="zh"):
+        with Timer("Loading Whisper Finetuned model"):
+            processor = WhisperProcessor.from_pretrained(
+                model_dir,
+                language=language,
+                task="transcribe",
+                no_timestamps=True,
+                local_files_only=True,
+            )
+            model = WhisperForConditionalGeneration.from_pretrained(
+                model_dir,
+                device_map=self.device,
+                local_files_only=True,
+                torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+            )
+            model.generation_config.language = language.lower()
+            model.generation_config.forced_decoder_ids = None
+            model.eval()
+            self.processor = processor
+            self.model = model
+    def transcribe(self, wav, language=""):
+        with Timer("Transcribing audio") as t:
+            sr = 16000
+            audio, _ = librosa.load(wav, sr=sr, mono=True)
+            inputs = self.processor(audio, sampling_rate=sr, return_tensors="pt")
+            # 放到设备
+            device = next(self.model.parameters()).device
+            input_features = inputs["input_features"].to(device)
+            # 生成
+            with torch.inference_mode(), torch.autocast(device_type="cuda", enabled=(device.type == "cuda")):
+                generated_ids = self.model.generate(
+                    input_features=input_features,
+                    max_new_tokens=255,
+                    return_timestamps=False,  # 仅部分版本支持；不支持时自动忽略
+                )
+            # 解码
+            text = self.processor.tokenizer.batch_decode(generated_ids.cpu().numpy(), skip_special_tokens=True)
+        return text[0], t.duration
+if __name__ == "__main__":
+    model = WhisperFinetuned(device='mps')
+    model.load(language="en")
+    text, cost = model.transcribe('../../test_data/recordings/1.wav', language="zh")
+    print("inference time: ", cost)
+    print(text)

reports/asr_result_funasr_mlt_nano_librispeech_clean.json ADDED Viewed