Instructions to use vigneshwar234/TemporalMesh-Transformer with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use vigneshwar234/TemporalMesh-Transformer with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="vigneshwar234/TemporalMesh-Transformer")

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("vigneshwar234/TemporalMesh-Transformer", dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use vigneshwar234/TemporalMesh-Transformer with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "vigneshwar234/TemporalMesh-Transformer"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "vigneshwar234/TemporalMesh-Transformer",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/vigneshwar234/TemporalMesh-Transformer

SGLang

How to use vigneshwar234/TemporalMesh-Transformer with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "vigneshwar234/TemporalMesh-Transformer" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "vigneshwar234/TemporalMesh-Transformer",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "vigneshwar234/TemporalMesh-Transformer" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "vigneshwar234/TemporalMesh-Transformer",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Docker Model Runner
How to use vigneshwar234/TemporalMesh-Transformer with Docker Model Runner:
```
docker model run hf.co/vigneshwar234/TemporalMesh-Transformer
```

TemporalMesh-Transformer / inference.py

vigneshwar234

Add inference.py

97ade79 verified about 21 hours ago

raw

history blame contribute delete

4.78 kB

	"""
	TemporalMesh Transformer — Inference Script
	Full greedy / top-p / top-k text generation with exit gate analysis.
	"""

	import torch
	import torch.nn.functional as F
	from tmt.model.config import TMTConfig
	from tmt.model.model import TMTModel


	def load_model(checkpoint_path: str = None, config: TMTConfig = None) -> TMTModel:
	if config is None:
	config = TMTConfig(
	vocab_size=50258, d_model=512, n_heads=8, n_layers=12,
	graph_k=8, exit_threshold=0.85, memory_anchors=16, max_seq_len=256,
	)
	model = TMTModel(config)
	if checkpoint_path:
	ckpt = torch.load(checkpoint_path, map_location="cpu")
	model.load_state_dict(ckpt["model_state"])
	model.eval()
	return model


	@torch.no_grad()
	def generate(
	model: TMTModel,
	input_ids: torch.Tensor,
	max_new_tokens: int = 64,
	temperature: float = 1.0,
	top_k: int = 50,
	top_p: float = 0.95,
	do_sample: bool = True,
	) -> dict:
	"""
	Generate tokens autoregressively. Returns generated ids + exit analysis.
	"""
	device = next(model.parameters()).device
	input_ids = input_ids.to(device)
	generated = input_ids.clone()
	all_exit_stats = []

	for _ in range(max_new_tokens):
	output = model(generated)
	logits = output.logits[:, -1, :] / temperature # (B, V)

	if top_k > 0:
	values, _ = torch.topk(logits, top_k)
	logits[logits < values[:, -1:]] = -float("Inf")

	if top_p < 1.0:
	sorted_logits, sorted_idx = torch.sort(logits, descending=True)
	cumulative = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)
	remove = cumulative - F.softmax(sorted_logits, dim=-1) > top_p
	remove[:, 1:] = remove[:, :-1].clone()
	remove[:, 0] = False
	sorted_logits[remove] = -float("Inf")
	logits.scatter_(1, sorted_idx, sorted_logits)

	probs = F.softmax(logits, dim=-1)
	next_token = (
	torch.multinomial(probs, num_samples=1) if do_sample
	else logits.argmax(dim=-1, keepdim=True)
	)
	generated = torch.cat([generated, next_token], dim=1)

	# capture exit stats for this step
	step_exit = {
	"exit_rates": [m.float().mean().item() for m in output.exit_masks],
	"avg_confidence": [c.mean().item() for c in output.confidences],
	}
	all_exit_stats.append(step_exit)

	# stop at max_seq_len
	if generated.shape[1] >= model.config.max_seq_len:
	break

	avg_compute = sum(
	sum(s["exit_rates"]) / len(s["exit_rates"])
	for s in all_exit_stats
	) / len(all_exit_stats)

	return {
	"generated_ids": generated,
	"new_tokens": generated[:, input_ids.shape[1]:],
	"exit_stats": all_exit_stats,
	"avg_compute_used": round(avg_compute, 3),
	}


	def analyse_sequence(model: TMTModel, input_ids: torch.Tensor) -> None:
	"""
	Run a single forward pass and print detailed exit gate analysis.
	"""
	device = next(model.parameters()).device
	with torch.no_grad():
	output = model(input_ids.to(device))

	S = input_ids.shape[1]
	print(f"\n{'='*55}")
	print(f" TMT Sequence Analysis (seq_len={S})")
	print(f"{'='*55}")
	print(f" Logits shape: {output.logits.shape}")
	print(f" Graph edges: {output.graph_edges[0].shape[1]} active edges")
	print(f" Memory state: {output.memory_state.shape}\n")
	print(f" {'Layer':<8} {'Tokens frozen':>14} {'Exit rate':>12} {'Avg conf':>10}")
	print(f" {'-'*46}")

	total_frozen = 0
	for i, (mask, conf) in enumerate(zip(output.exit_masks, output.confidences)):
	n_frozen = mask.sum().item()
	total_frozen += n_frozen
	rate = n_frozen / S
	avg_c = conf.mean().item()
	print(f" {i+1:<8} {n_frozen:>14} {rate:>11.1%} {avg_c:>10.3f}")

	print(f" {'-'*46}")
	print(f" Total compute fraction: {total_frozen/(S*len(output.exit_masks)):.1%} of max")
	print(f" Active graph edges: {output.graph_edges[0].shape[1]}")
	print(f"{'='*55}\n")


	if __name__ == "__main__":
	print("Loading TMT-Small for quick demo...")
	cfg = TMTConfig(
	vocab_size=50258, d_model=256, n_heads=4, n_layers=6,
	graph_k=4, exit_threshold=0.80, memory_anchors=8, max_seq_len=128,
	)
	model = load_model(config=cfg)
	print(f"Parameters: {sum(p.numel() for p in model.parameters()):,}")

	ids = torch.randint(100, 50000, (1, 32))
	analyse_sequence(model, ids)

	result = generate(model, ids, max_new_tokens=16, do_sample=False)
	print(f"Generated {result['new_tokens'].shape[1]} new tokens.")
	print(f"Avg compute used per step: {result['avg_compute_used']:.1%}")