fff / X-Codec-2.0 /inference_gpu.py

Add files using upload-large-folder tool

24b4b54 verified 14 days ago

12.3 kB

	"""
	GPU批量推理脚本（inference_gpu.py）
	基于 inference.py，增加：
	- DataLoader 批量推理（大幅提升 GPU 利用率）
	- 多 GPU 支持（torchrun / LOCAL_RANK 自动分片）
	- 输出重建音频（.wav），保留原始子目录结构
	- 自动裁剪 padding，输出长度与原始音频一致

	单 GPU 运行示例：
	python inference_gpu.py \
	--input-dir test_audio/input_test \
	--output-dir test_audio/output_test \
	--ckpt ckpt/epoch=4-step=1400000.ckpt \
	--batch-size 8 --num-workers 4

	多 GPU 运行示例（4 卡）：
	torchrun --nproc_per_node=4 inference_gpu.py \
	--input-dir test_audio/input_test \
	--output-dir test_audio/output_test \
	--ckpt ckpt/epoch=4-step=1400000.ckpt \
	--batch-size 8 --num-workers 4
	"""

	import os
	import torch
	import torch.nn.functional as F
	import numpy as np
	import soundfile as sf
	import torchaudio
	from torchaudio.transforms import Resample
	from glob import glob
	from tqdm import tqdm
	from os.path import join
	from collections import OrderedDict
	from argparse import ArgumentParser
	from time import time

	import torch.nn as nn
	from torch.utils.data import Dataset, DataLoader
	from transformers import AutoFeatureExtractor, Wav2Vec2BertModel

	from vq.codec_encoder import CodecEncoder
	from vq.codec_decoder_vocos import CodecDecoderVocos
	from vq.module import SemanticEncoder


	# ─────────────────────────────────────────────
	# Dataset
	# ─────────────────────────────────────────────

	class AudioDataset(Dataset):
	"""加载音频并提前提取 w2v-bert feature，返回 (audio, feat, path, orig_len)。"""

	HOP = 320 # encoder 下采样步长

	def __init__(self, file_list, sampling_rate: int, feature_extractor_path: str):
	self.file_list = file_list
	self.sr = sampling_rate
	self.feature_extractor = AutoFeatureExtractor.from_pretrained(feature_extractor_path)

	def __len__(self):
	return len(self.file_list)

	def __getitem__(self, idx):
	path = self.file_list[idx]
	audio, sr = torchaudio.load(path)

	# 转单声道
	if audio.shape[0] > 1:
	audio = audio.mean(dim=0, keepdim=True)

	# 重采样
	if sr != self.sr:
	audio = Resample(sr, self.sr)(audio) # (1, T)

	orig_len = audio.shape[1] # 原始采样点数，用于裁剪 padding

	# 对 encoder 补齐到 HOP 整数倍
	pad_enc = (self.HOP - audio.shape[1] % self.HOP) % self.HOP
	audio_padded = F.pad(audio, (0, pad_enc)) # (1, T')

	# feature extractor 需要在首尾各 pad 160
	feat = self.feature_extractor(
	F.pad(audio[0], (160, 160)),
	sampling_rate=self.sr,
	return_tensors="pt"
	).data['input_features'] # (1, T_feat, 160)

	return audio_padded, feat, path, orig_len


	def collate_fn(batch):
	"""把一个 batch 中长度不一的样本 pad 成相同长度。"""
	audios, feats, paths, orig_lens = zip(*batch)

	# feat 长度对齐（encoder 输出帧数）
	max_feat_len = max(f.shape[1] for f in feats)
	max_audio_len = max_feat_len * AudioDataset.HOP

	# audio pad
	padded_audios = []
	for a in audios:
	diff = max_audio_len - a.shape[1]
	padded_audios.append(F.pad(a, (0, diff)) if diff > 0 else a[:, :max_audio_len])
	padded_audios = torch.stack(padded_audios) # (B, 1, T)

	# feat pad
	padded_feats = []
	for f in feats:
	diff = max_feat_len - f.shape[1]
	padded_feats.append(F.pad(f, (0, 0, 0, diff)) if diff > 0 else f[:, :max_feat_len, :])
	padded_feats = torch.stack(padded_feats) # (B, 1, T_feat, 160)

	return padded_audios, padded_feats, paths, torch.tensor(orig_lens, dtype=torch.long)


	# ─────────────────────────────────────────────
	# 模型加载工具
	# ─────────────────────────────────────────────

	def load_models(ckpt_path: str, w2v_path: str, device: torch.device):
	print(f"[rank {device}] Loading checkpoint: {ckpt_path}")
	ckpt = torch.load(ckpt_path, map_location="cpu")["state_dict"]

	fd_codec = OrderedDict()
	fd_sem_enc = OrderedDict()
	fd_gen = OrderedDict()
	fd_fc_post = OrderedDict()
	fd_fc_pri = OrderedDict()

	prefix_map = {
	"CodecEnc.": fd_codec,
	"generator.": fd_gen,
	"fc_post_a.": fd_fc_post,
	"SemanticEncoder_module.": fd_sem_enc,
	"fc_prior.": fd_fc_pri,
	}
	for key, val in ckpt.items():
	for prefix, target in prefix_map.items():
	if key.startswith(prefix):
	target[key[len(prefix):]] = val
	break

	semantic_model = Wav2Vec2BertModel.from_pretrained(w2v_path, output_hidden_states=True)
	semantic_model.eval().to(device)

	sem_enc = SemanticEncoder(1024, 1024, 1024)
	sem_enc.load_state_dict(fd_sem_enc)
	sem_enc.eval().to(device)

	encoder = CodecEncoder()
	encoder.load_state_dict(fd_codec)
	encoder.eval().to(device)

	decoder = CodecDecoderVocos()
	decoder.load_state_dict(fd_gen)
	decoder.eval().to(device)

	fc_post_a = nn.Linear(1024, 1024)
	fc_post_a.load_state_dict(fd_fc_post)
	fc_post_a.eval().to(device)

	fc_prior = nn.Linear(2048, 1024)
	fc_prior.load_state_dict(fd_fc_pri)
	fc_prior.eval().to(device)

	return semantic_model, sem_enc, encoder, decoder, fc_post_a, fc_prior


	# ─────────────────────────────────────────────
	# 单 batch 推理
	# ─────────────────────────────────────────────

	@torch.no_grad()
	def infer_batch(wavs, feats, orig_lens, models, device, sr):
	"""
	wavs: (B, 1, T) float32，已 pad
	feats: (B, 1, Tf, 160) float32
	orig_lens:(B,) int，原始采样点数
	返回: List[np.ndarray]，每个元素为裁剪后的重建波形
	"""
	semantic_model, sem_enc, encoder, decoder, fc_post_a, fc_prior = models
	# breakpoint()

	wavs = wavs.to(device) # (B, 1, T)
	feats = feats[:, 0, :, :].to(device) # (B, Tf, 160)

	# ① Codec encoder
	vq_emb = encoder(wavs) # (B, C, T//HOP)
	vq_emb = vq_emb.transpose(1, 2) # (B, T//HOP, C)

	# ② Semantic encoder
	sem_out = semantic_model(feats)
	sem_feat = sem_out.hidden_states[16] # (B, Tf, 1024)
	sem_feat = sem_feat.transpose(1, 2) # (B, 1024, Tf)
	sem_feat = sem_enc(sem_feat) # (B, 1024, Tf)

	# ③ 拼接 & fc_prior
	vq_emb = torch.cat([sem_feat, vq_emb], dim=1) # (B, 2048, Tf)
	vq_emb = fc_prior(vq_emb.transpose(1, 2)).transpose(1, 2) # (B, 2048, Tf)

	# # ④ VQ
	# _, vq_code, _ = decoder(vq_emb, vq=True) # vq_code: (B, 1, Tf)

	# # ⑤ 解码重建
	# vq_post_emb = decoder.quantizer.get_output_from_indices(
	# vq_code.transpose(1, 2)
	# ) # (B, Tf, 1024)
	# vq_post_emb = vq_post_emb.transpose(1, 2) # (B, 1024, Tf)
	vq_post_emb = vq_emb

	vq_post_emb = fc_post_a(
	vq_post_emb.transpose(1, 2)
	).transpose(1, 2) # (B, 1024, Tf)

	recon_batch = decoder(
	vq_post_emb.transpose(1, 2), vq=False
	)[0].squeeze(1) # (B, T)

	# ⑥ 裁剪到原始长度
	results = []
	for i, wav_len in enumerate(orig_lens.tolist()):
	results.append(recon_batch[i, :wav_len].detach().cpu().numpy())

	return results


	# ─────────────────────────────────────────────
	# 主函数
	# ─────────────────────────────────────────────

	def main():
	parser = ArgumentParser()
	parser.add_argument("--input-dir", type=str,
	default="test_audio/input_test")
	parser.add_argument("--output-dir", type=str,
	default="test_audio/output_test")
	parser.add_argument("--ckpt", type=str,
	default="/apdcephfs/private_jishengpeng2/work/shengpeng/research/X-Codec-2.0/log/shengpeng_debug/last.ckpt")
	parser.add_argument("--w2v-path", type=str,
	default="/apdcephfs/private_jishengpeng2/work/shengpeng/research/X-Codec-2.0/ckpt/w2v-bert-2.0")
	parser.add_argument("--batch-size", type=int, default=8)
	parser.add_argument("--num-workers", type=int, default=4)
	parser.add_argument("--num-gpus", type=int, default=None,
	help="手动指定 GPU 总数；默认自动检测（或读取 torchrun 环境变量）")
	args = parser.parse_args()

	sr = 16000

	# ── 多 GPU 分片（兼容 torchrun 和单机手动指定）────────────────
	local_rank = int(os.getenv("LOCAL_RANK", 0))
	world_size = int(os.getenv("WORLD_SIZE", 1))
	if args.num_gpus is not None:
	world_size = args.num_gpus

	if torch.cuda.is_available():
	device = torch.device(f"cuda:{local_rank}")
	torch.cuda.set_device(device)
	else:
	device = torch.device("cpu")
	print("[警告] 未检测到 CUDA，使用 CPU 推理，速度较慢。")

	# ── 收集音频文件 ─────────────────────────────────────────────
	all_paths = []
	for ext in ("wav", "flac", "mp3"):
	all_paths += glob(join(args.input_dir, "*", f".{ext}"), recursive=True)
	all_paths = sorted(set(all_paths))

	if world_size > 1:
	# 按 rank 均匀分片
	all_paths = np.array_split(all_paths, world_size)[local_rank].tolist()

	print(f"[rank {local_rank}] {len(all_paths)} files to process on {device}")

	if len(all_paths) == 0:
	print(f"[rank {local_rank}] No files found, exiting.")
	return

	# ── 构建 DataLoader ──────────────────────────────────────────
	dataset = AudioDataset(all_paths, sr, args.w2v_path)
	dataloader = DataLoader(
	dataset,
	batch_size=args.batch_size,
	shuffle=False,
	num_workers=args.num_workers,
	pin_memory=torch.cuda.is_available(),
	collate_fn=collate_fn,
	drop_last=False,
	)

	# ── 加载模型 ─────────────────────────────────────────────────
	models = load_models(args.ckpt, args.w2v_path, device)

	os.makedirs(args.output_dir, exist_ok=True)

	# ── 推理循环 ─────────────────────────────────────────────────
	st = time()
	for wavs, feats, paths, orig_lens in tqdm(dataloader,
	desc=f"rank {local_rank}",
	dynamic_ncols=True):
	recon_list = infer_batch(wavs, feats, orig_lens, models, device, sr)

	for recon, src_path in zip(recon_list, paths):
	# 保留相对于 input_dir 的子目录结构
	rel = os.path.relpath(src_path, args.input_dir)
	# 统一输出为 .wav
	rel = os.path.splitext(rel)[0] + ".wav"
	dst = join(args.output_dir, rel)
	os.makedirs(os.path.dirname(dst), exist_ok=True)
	sf.write(dst, recon, sr)

	et = time()
	print(f"[rank {local_rank}] Done. Total time: {(et - st) / 60:.2f} min")


	if __name__ == "__main__":
	main()