Spaces:

FireRedTeam
/

FireRedASR2S

Running on Zero

App Files Files Community

FireRedASR2S / app.py

FireRedTeam

Upload app.py

100f398 verified 1 day ago

raw

history blame contribute delete

7.09 kB

	import sys

	import gradio as gr
	import spaces
	from huggingface_hub import snapshot_download

	sys.path.append("./fireredasr2s")
	from fireredasr2s import FireRedAsr2System, FireRedAsr2SystemConfig
	from fireredasr2s.fireredasr2.asr import FireRedAsr2, FireRedAsr2Config
	from fireredasr2s.fireredvad.vad import FireRedVad, FireRedVadConfig
	from fireredasr2s.fireredvad.aed import FireRedAed, FireRedAedConfig
	from fireredasr2s.fireredvad.stream_vad import FireRedStreamVad, FireRedStreamVadConfig


	asr_system = None
	asr_model_aed = None
	asr_model_llm = None
	vad_model = None
	aed_model = None
	stream_vad_model = None


	def init_model(model_dir_aed, model_dir_llm):
	global asr_system
	global asr_model_aed
	global asr_model_llm
	global vad_model
	global aed_model
	global stream_vad_model
	if asr_system is None:
	asr_system_config = FireRedAsr2SystemConfig() # Use default config
	asr_system = FireRedAsr2System(asr_system_config)
	if asr_model_aed is None:
	asr_config_aed = FireRedAsr2Config(
	use_gpu=True,
	use_half=False,
	beam_size=3,
	nbest=1,
	decode_max_len=0,
	softmax_smoothing=1.25,
	aed_length_penalty=0.6,
	eos_penalty=1.0,
	return_timestamp=True
	)
	asr_model_aed = FireRedAsr2.from_pretrained("aed", model_dir_aed, asr_config_aed)
	if asr_model_llm is None:
	asr_config_llm = FireRedAsr2Config(
	use_gpu=True,
	decode_min_len=0,
	repetition_penalty=3.0,
	llm_length_penalty=1.0,
	temperature=1.0
	)
	asr_model_llm = FireRedAsr2.from_pretrained("llm", model_dir_llm, asr_config_llm)
	if vad_model is None:
	vad_config = FireRedVadConfig(
	use_gpu=False,
	smooth_window_size=5,
	speech_threshold=0.4,
	min_speech_frame=20,
	max_speech_frame=2000,
	min_silence_frame=20,
	merge_silence_frame=0,
	extend_speech_frame=0,
	chunk_max_frame=30000)
	vad_model = FireRedVad.from_pretrained("pretrained_models/FireRedVAD/VAD", vad_config)
	if aed_model is None:
	aed_config = FireRedAedConfig(
	use_gpu=False,
	smooth_window_size=5,
	speech_threshold=0.4,
	singing_threshold=0.5,
	music_threshold=0.5,
	min_event_frame=20,
	max_event_frame=2000,
	min_silence_frame=20,
	merge_silence_frame=0,
	extend_speech_frame=0,
	chunk_max_frame=30000)
	aed_model = FireRedAed.from_pretrained("pretrained_models/FireRedVAD/AED", aed_config)
	if stream_vad_model is None:
	vad_config = FireRedStreamVadConfig(
	use_gpu=False,
	smooth_window_size=5,
	speech_threshold=0.4,
	pad_start_frame=5,
	min_speech_frame=8,
	max_speech_frame=2000,
	min_silence_frame=20,
	chunk_max_frame=30000)
	stream_vad_model = FireRedStreamVad.from_pretrained("pretrained_models/FireRedVAD/Stream-VAD", vad_config)


	@spaces.GPU(duration=20)
	def asr_sys_inference(audio_file):
	if not audio_file:
	return "Please upload a wav file"
	results = asr_system.process(audio_file)
	s = f'ASR: {results["text"]}\nSentences: {results["sentences"]}\nVAD(ms): {results["vad_segments_ms"]}\nDuration: {results["dur_s"]}s'
	return s


	@spaces.GPU(duration=20)
	def asr_inference(audio_file):
	if not audio_file:
	return "Please upload a wav file"
	batch_uttid = ["demo"]
	batch_wav_path = [audio_file]
	results = asr_model_aed.transcribe(
	batch_uttid,
	batch_wav_path
	)
	text_output = results[0]["text"]
	return text_output


	@spaces.GPU(duration=30)
	def asr_inference_llm(audio_file):
	if not audio_file:
	return "Please upload a wav file"
	batch_uttid = ["demo"]
	batch_wav_path = [audio_file]
	results = asr_model_llm.transcribe(
	batch_uttid,
	batch_wav_path,
	)
	text_output = results[0]["text"]
	return text_output


	@spaces.GPU(duration=20)
	def vad_inference(audio_file):
	if not audio_file:
	return "Please upload a wav file"
	result, probs = vad_model.detect(audio_file)
	s = f'Duration: {result["dur"]}s'
	s += f'\nVAD: {result["timestamps"]}'
	frame_results, result = stream_vad_model.detect_full(audio_file)
	s += f'\nStream VAD: {result["timestamps"]}'
	result, probs = aed_model.detect(audio_file)
	s += f'\nAudio Event: {result["event2ratio"]}\n {result["event2timestamps"]}'
	return s


	with gr.Blocks(title="FireRedASR2S") as demo:
	gr.HTML(
	"<h1 style='text-align: center'>FireRedASR2S Demo</h1>"
	)
	gr.Markdown("Upload an audio file (wav) to get speech-to-text results.")

	with gr.Row():
	with gr.Column():
	#audio_file = gr.Audio(label="Upload Audio", sources=["upload", "microphone"], type="filepath")
	audio_file = gr.Audio(label="Upload wav file", sources=["upload"], type="filepath")
	vad_button = gr.Button("Start Recognition (FireRedVAD)", variant="primary")
	vad_output = gr.Textbox(label="Model Result (FireRedVAD)", interactive=False, lines=3, max_lines=12)

	with gr.Column():
	asr_sys_button = gr.Button("Start Recognition (FireRedASR2S)", variant="primary")
	text_sys_output = gr.Textbox(label="Model Result (FireRedASR2S)", interactive=False, lines=3, max_lines=12)
	asr_button = gr.Button("Start Recognition (FireRedASR2-AED-L)", variant="primary")
	text_output = gr.Textbox(label="Model Result (FireRedASR2-AED-L)", interactive=False, lines=3, max_lines=12)
	asr_button_llm = gr.Button("Start Recognition (FireRedASR2-LLM-L)", variant="primary")
	text_output_llm = gr.Textbox(label="Model Result (FireRedASR2-LLM-L)", interactive=False, lines=3, max_lines=12)

	vad_button.click(
	fn=vad_inference,
	inputs=[audio_file],
	outputs=[vad_output]
	)

	asr_sys_button.click(
	fn=asr_sys_inference,
	inputs=[audio_file],
	outputs=[text_sys_output]
	)

	asr_button.click(
	fn=asr_inference,
	inputs=[audio_file],
	outputs=[text_output]
	)

	asr_button_llm.click(
	fn=asr_inference_llm,
	inputs=[audio_file],
	outputs=[text_output_llm]
	)


	if __name__ == "__main__":
	# Download model
	local_dir='pretrained_models/FireRedASR2-AED'
	snapshot_download(repo_id='FireRedTeam/FireRedASR2-AED', local_dir=local_dir)
	local_dir_llm='pretrained_models/FireRedASR2-LLM'
	snapshot_download(repo_id='FireRedTeam/FireRedASR2-LLM', local_dir=local_dir_llm)
	for name in ['FireRedVAD', 'FireRedLID', 'FireRedPunc']:
	snapshot_download(repo_id=f'FireRedTeam/{name}', local_dir=f'pretrained_models/{name}')
	# Init model
	init_model(local_dir, local_dir_llm)
	# UI
	demo.queue()
	demo.launch()