moss-tok

Sleeping

App Files Files Community

moss-tok / app.py

Humair332

Update app.py

ca20f23 verified about 2 months ago

raw

history blame contribute delete

8.25 kB

	import time
	import torch
	import soundfile as sf
	import torchaudio
	import gradio as gr
	import numpy as np
	from transformers import HiggsAudioV2TokenizerModel, AutoFeatureExtractor

	# ── Model loading ──────────────────────────────────────────────────────────────

	REPO_ID = "eustlb/higgs-audio-v2-tokenizer"
	NUM_CODEBOOKS = 8 # OmniVoice uses exactly 8 RVQ codebooks

	model = None
	feature_extractor = None

	def load_model():
	global model, feature_extractor
	if model is None:
	feature_extractor = AutoFeatureExtractor.from_pretrained(REPO_ID)
	model = HiggsAudioV2TokenizerModel.from_pretrained(REPO_ID, device_map="auto")
	model.eval()
	return model, feature_extractor


	# ── Core inference ─────────────────────────────────────────────────────────────

	def run_tokenizer(audio_path: str, num_rvq_layers: int):
	if audio_path is None:
	return None, "", ""

	m, fx = load_model()
	device = next(m.parameters()).device

	# Load & resample to 24 kHz
	data, sr = sf.read(audio_path, always_2d=True) # (T, C)
	wav = torch.from_numpy(data.T).float() # (C, T)
	target_sr = fx.sampling_rate # 24000
	if sr != target_sr:
	wav = torchaudio.functional.resample(wav, sr, target_sr)

	# Mix to mono for feature extractor
	wav_mono = wav.mean(0).numpy() # (T,)
	duration_s = len(wav_mono) / target_sr

	# Feature extraction
	inputs = fx(
	raw_audio=wav_mono,
	sampling_rate=target_sr,
	return_tensors="pt",
	)
	input_values = inputs["input_values"].to(device) # (1, T)

	# ── Encode ────────────────────────────────────────────────────────────────
	t0 = time.perf_counter()
	with torch.no_grad():
	enc = m.encode(input_values)
	encode_time = time.perf_counter() - t0

	# audio_codes: normalise to (N_q, T_tok) regardless of batch/dim ordering
	codes = enc.audio_codes # raw output
	c = codes
	if c.dim() == 3:
	c = c[0] # drop batch dim → (T_tok, N_q) or (N_q, T_tok)
	if c.shape[0] > c.shape[1]: # more frames than codebooks
	c = c.T # → (N_q, T_tok)
	elif c.dim() == 2:
	c = c[0].unsqueeze(0) # → (1, T_tok)

	Q, T_tok = c.shape

	# Slice to requested number of RVQ layers (OmniVoice uses up to 8)
	layers_used = min(num_rvq_layers, Q)
	c_sliced = c[:layers_used] # (layers_used, T_tok)

	# ── Rebuild codes tensor for decode in original batch shape ───────────────
	# Repack sliced codes back into the shape model.decode() expects.
	# If original was (B, T, N_q) → (1, T_tok, layers_used)
	# If original was (B, N_q, T) → (1, layers_used, T_tok)
	orig = enc.audio_codes
	if orig.dim() == 3:
	if orig.shape[1] > orig.shape[2]: # (B, T, N_q)
	codes_for_decode = c_sliced.T.unsqueeze(0) # (1, T_tok, layers_used)
	else: # (B, N_q, T)
	codes_for_decode = c_sliced.unsqueeze(0) # (1, layers_used, T_tok)
	else:
	codes_for_decode = c_sliced.unsqueeze(0) # (1, layers_used, T_tok)

	# ── Decode ────────────────────────────────────────────────────────────────
	t1 = time.perf_counter()
	with torch.no_grad():
	dec = m.decode(codes_for_decode)
	decode_time = time.perf_counter() - t1

	out_wav = dec.audio_values.squeeze(0).cpu() # (C, T) or (T,)
	if out_wav.dim() == 1:
	out_wav = out_wav.unsqueeze(0) # → (1, T)

	# ── Token table ───────────────────────────────────────────────────────────
	lines = []
	for q_idx, row in enumerate(c_sliced.cpu().tolist()):
	row_str = " ".join(f"{int(v):4d}" for v in row)
	lines.append(f"RVQ-{q_idx+1:02d}: [{row_str}]")
	token_text = "\n".join(lines)

	# ── Stats ─────────────────────────────────────────────────────────────────
	frame_rate = T_tok / duration_s
	total_tokens = layers_used * T_tok
	enc_speed = T_tok / encode_time
	dec_speed = T_tok / decode_time
	compression = len(wav_mono) / T_tok
	bitrate_kbps = (layers_used * frame_rate * 10) / 1000 # 10 bits/token (1024-entry codebook)

	stats_md = f"""\| Metric \| Value \|
	\|---\|---\|
	\| Audio duration \| {duration_s:.3f} s \|
	\| Sample rate \| {target_sr:,} Hz \|
	\| RVQ codebooks used \| {layers_used} / {Q} \|
	\| Codebook size \| 1024 (10 bit) \|
	\| Frame rate \| {frame_rate:.2f} tok/s \|
	\| Token frames (T) \| {T_tok:,} \|
	\| Total tokens (N_q × T) \| {total_tokens:,} \|
	\| Bitrate \| {bitrate_kbps:.2f} kbps \|
	\| Encode speed \| {enc_speed:,.1f} frames/s ({duration_s/encode_time:.1f}× real-time) \|
	\| Decode speed \| {dec_speed:,.1f} frames/s ({duration_s/decode_time:.1f}× real-time) \|
	\| Compression ratio \| {compression:.1f}× \|
	\| Encode time \| {encode_time*1000:.1f} ms \|
	\| Decode time \| {decode_time*1000:.1f} ms \|
	\| Device \| {str(device).upper()} \|"""

	# Return as numpy for Gradio
	out_np = out_wav.numpy()
	if out_np.shape[0] == 1:
	out_np = out_np[0] # mono
	else:
	out_np = out_np.T # stereo → (T, C)

	return (target_sr, out_np), token_text, stats_md


	# ── UI ─────────────────────────────────────────────────────────────────────────

	CSS = """
	#token-box textarea {
	font-family: "JetBrains Mono", "Fira Code", monospace;
	font-size: 12px;
	white-space: pre;
	}
	.title { text-align: center; }
	"""

	with gr.Blocks(title="Higgs Audio V2 Tokenizer (OmniVoice)") as demo:
	gr.Markdown(
	"""# 🎙️ Higgs Audio V2 Tokenizer — as used in OmniVoice
	[`eustlb/higgs-audio-v2-tokenizer`](https://huggingface.co/eustlb/higgs-audio-v2-tokenizer)
	· 8-codebook RVQ · 25 Hz frame rate · 24 kHz · Speech + Music + Sound Events
	· Used by [`k2-fsa/OmniVoice`](https://github.com/k2-fsa/OmniVoice) for 600+ language TTS""",
	elem_classes="title",
	)

	with gr.Row():
	with gr.Column():
	audio_in = gr.Audio(
	label="📂 Upload Audio",
	type="filepath",
	)
	rvq_slider = gr.Slider(
	minimum=1,
	maximum=NUM_CODEBOOKS,
	value=NUM_CODEBOOKS,
	step=1,
	label=f"RVQ codebooks used for decode (fewer = lower quality / lower bitrate, OmniVoice uses all {NUM_CODEBOOKS})",
	)
	run_btn = gr.Button("▶ Tokenize & Reconstruct", variant="primary")

	with gr.Column():
	audio_out = gr.Audio(
	label="🔊 Reconstructed Audio",
	type="numpy",
	)

	gr.Markdown("### 🔢 Tokens")
	token_box = gr.Textbox(
	label="Per-RVQ-codebook token indices (codebook size: 1024)",
	lines=10,
	interactive=False,
	elem_id="token-box",
	)

	gr.Markdown("### 📊 Stats")
	stats_box = gr.Markdown()

	run_btn.click(
	fn=run_tokenizer,
	inputs=[audio_in, rvq_slider],
	outputs=[audio_out, token_box, stats_box],
	)

	if __name__ == "__main__":
	demo.launch(css=CSS)