Spaces:

bhsinghgrid
/

DevaFlow-space

Sleeping

App Files Files Community

DevaFlow-space / inference.py

bhsinghgrid

Upload Gradio Space app

1cc095d verified 5 days ago

raw

history blame contribute delete

4 kB

	import copy

	import torch
	import torch.nn.functional as F

	from config import CONFIG


	def _resolve_device(cfg: dict) -> torch.device:
	requested = cfg["training"]["device"]
	if requested == "cuda" and not torch.cuda.is_available():
	requested = "cpu"
	if requested == "mps" and not torch.backends.mps.is_available():
	requested = "cpu"
	cfg["training"]["device"] = requested
	return torch.device(requested)


	def _build_tokenizers(cfg):
	from model.tokenizer import SanskritSourceTokenizer, SanskritTargetTokenizer

	src_tok = SanskritSourceTokenizer(
	vocab_size=cfg["model"].get("src_vocab_size", 16000),
	max_len=cfg["model"]["max_seq_len"],
	)
	tgt_tok = SanskritTargetTokenizer(
	vocab_size=cfg["model"].get("tgt_vocab_size", 16000),
	max_len=cfg["model"]["max_seq_len"],
	)
	return src_tok, tgt_tok


	def load_model(ckpt_path: str, base_cfg: dict, device: torch.device):
	from model.sanskrit_model import SanskritModel

	cfg = copy.deepcopy(base_cfg)
	state = torch.load(ckpt_path, map_location="cpu")

	emb_key = "model.src_embed.token_emb.weight"
	if emb_key in state:
	vocab, d_model = state[emb_key].shape
	cfg["model"]["src_vocab_size"] = vocab
	cfg["model"]["d_model"] = d_model
	cfg["model"]["d_ff"] = d_model * 4

	layer_ids = {int(k.split(".")[2]) for k in state if k.startswith("model.encoder_blocks.")}
	if layer_ids:
	cfg["model"]["n_layers"] = max(layer_ids) + 1

	pos_key = "model.src_embed.pos_enc.pe"
	if pos_key in state:
	cfg["model"]["max_seq_len"] = state[pos_key].shape[1]

	d_model = cfg["model"]["d_model"]
	n_heads = cfg["model"].get("n_heads", 8)
	if d_model % n_heads != 0:
	n_heads = next(h for h in [8, 6, 4, 2, 1] if d_model % h == 0)
	cfg["model"]["n_heads"] = n_heads

	model = SanskritModel(cfg).to(device)
	model.load_state_dict(torch.load(ckpt_path, map_location=device), strict=False)
	model.eval()
	return model, cfg


	def run_inference(model, input_ids, cfg):
	inf = cfg["inference"]
	device = input_ids.device
	bsz, seqlen = input_ids.shape
	inner = model.model

	total_steps = inner.scheduler.num_timesteps
	steps = int(inf["num_steps"])
	step_size = max(1, total_steps // max(steps, 1))
	timesteps = list(range(total_steps - 1, -1, -step_size))
	if timesteps[-1] != 0:
	timesteps.append(0)

	x0_est = torch.full((bsz, seqlen), inner.mask_token_id, dtype=torch.long, device=device)
	hint = None

	with torch.no_grad():
	for i, t_val in enumerate(timesteps):
	is_last = i == len(timesteps) - 1
	t = torch.full((bsz,), t_val, dtype=torch.long, device=device)

	logits, _ = model(input_ids, x0_est, t, x0_hint=hint, inference_mode=True)

	if inf["repetition_penalty"] != 1.0:
	from model.d3pm_model_cross_attention import _apply_repetition_penalty

	logits = _apply_repetition_penalty(logits, x0_est, float(inf["repetition_penalty"]))
	if inf["diversity_penalty"] > 0.0:
	from model.d3pm_model_cross_attention import _apply_diversity_penalty_fixed

	logits = _apply_diversity_penalty_fixed(logits, float(inf["diversity_penalty"]))

	logits = logits / max(float(inf["temperature"]), 1e-5)
	if int(inf["top_k"]) > 0:
	from model.d3pm_model_cross_attention import _top_k_filter

	logits = _top_k_filter(logits, int(inf["top_k"]))

	probs = F.softmax(logits, dim=-1)
	if is_last:
	x0_est = torch.argmax(probs, dim=-1)
	else:
	from model.d3pm_model_cross_attention import _batch_multinomial

	x0_est = _batch_multinomial(probs)
	hint = x0_est

	return x0_est


	__all__ = [
	"CONFIG",
	"_resolve_device",
	"_build_tokenizers",
	"load_model",
	"run_inference",
	]