Spaces:

phirni
/

next_frame_prediction

Sleeping

App Files Files Community

next_frame_prediction / model.py

phirni

Create model.py

cb80641 verified 7 months ago

raw

history blame contribute delete

6.38 kB

	import torch
	import torch.nn as nn
	from typing import Tuple, List

	# ===============================================================
	# 🧠 Beta-VAE (Frame Compression / Reconstruction)
	# ===============================================================

	class BetaVAE(nn.Module):
	"""β-Variational Autoencoder for frame compression"""

	def __init__(self, input_channels: int = 1, latent_dim: int = 64, beta: float = 4.0):
	super().__init__()
	self.latent_dim = latent_dim
	self.beta = beta

	# Encoder: 64x64 → 4x4
	self.encoder = nn.Sequential(
	nn.Conv2d(input_channels, 32, kernel_size=4, stride=2, padding=1), # 64→32
	nn.ReLU(),
	nn.Conv2d(32, 64, kernel_size=4, stride=2, padding=1), # 32→16
	nn.ReLU(),
	nn.Conv2d(64, 128, kernel_size=4, stride=2, padding=1), # 16→8
	nn.ReLU(),
	nn.Conv2d(128, 256, kernel_size=4, stride=2, padding=1), # 8→4
	nn.ReLU(),
	)

	# Latent space
	self.fc_mu = nn.Linear(256 * 4 * 4, latent_dim)
	self.fc_logvar = nn.Linear(256 * 4 * 4, latent_dim)

	# Decoder input
	self.decoder_input = nn.Linear(latent_dim, 256 * 4 * 4)

	# Decoder: 4x4 → 64x64
	self.decoder = nn.Sequential(
	nn.ConvTranspose2d(256, 128, kernel_size=4, stride=2, padding=1), # 4→8
	nn.ReLU(),
	nn.ConvTranspose2d(128, 64, kernel_size=4, stride=2, padding=1), # 8→16
	nn.ReLU(),
	nn.ConvTranspose2d(64, 32, kernel_size=4, stride=2, padding=1), # 16→32
	nn.ReLU(),
	nn.ConvTranspose2d(32, input_channels, kernel_size=4, stride=2, padding=1), # 32→64
	nn.Sigmoid() # output [0,1]
	)

	# -----------------------------------------------------------
	# Encoder / Decoder Logic
	# -----------------------------------------------------------
	def encode(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
	h = self.encoder(x)
	h = h.view(h.size(0), -1)
	mu = self.fc_mu(h)
	logvar = self.fc_logvar(h)
	return mu, logvar

	def reparameterize(self, mu: torch.Tensor, logvar: torch.Tensor) -> torch.Tensor:
	std = torch.exp(0.5 * logvar)
	eps = torch.randn_like(std)
	return mu + eps * std

	def decode(self, z: torch.Tensor) -> torch.Tensor:
	h = self.decoder_input(z)
	h = h.view(h.size(0), 256, 4, 4)
	return self.decoder(h)

	# -----------------------------------------------------------
	# Forward + Loss
	# -----------------------------------------------------------
	def forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
	mu, logvar = self.encode(x)
	z = self.reparameterize(mu, logvar)
	recon = self.decode(z)
	return recon, mu, logvar

	def loss_function(self, recon_x: torch.Tensor, x: torch.Tensor,
	mu: torch.Tensor, logvar: torch.Tensor) -> dict:
	"""Compute β-VAE loss"""
	recon_loss = nn.functional.mse_loss(recon_x, x, reduction='sum')
	kl_loss = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
	total_loss = recon_loss + self.beta * kl_loss
	return {
	'total_loss': total_loss,
	'recon_loss': recon_loss,
	'kl_loss': kl_loss
	}


	# ===============================================================
	# 🔁 ConvLSTM (Frame Prediction)
	# ===============================================================

	class ConvLSTMCell(nn.Module):
	"""A single ConvLSTM cell"""
	def __init__(self, input_dim: int, hidden_dim: int, kernel_size: int):
	super().__init__()
	padding = kernel_size // 2
	self.input_dim = input_dim
	self.hidden_dim = hidden_dim

	self.conv = nn.Conv2d(
	input_dim + hidden_dim,
	4 * hidden_dim,
	kernel_size=kernel_size,
	padding=padding
	)

	def forward(self, x, hidden_state):
	h_prev, c_prev = hidden_state
	combined = torch.cat([x, h_prev], dim=1)
	conv_out = self.conv(combined)
	i, f, o, g = torch.split(conv_out, self.hidden_dim, dim=1)
	i = torch.sigmoid(i)
	f = torch.sigmoid(f)
	o = torch.sigmoid(o)
	g = torch.tanh(g)
	c_next = f * c_prev + i * g
	h_next = o * torch.tanh(c_next)
	return h_next, c_next

	def init_hidden(self, batch_size, spatial_size, device):
	H, W = spatial_size
	h = torch.zeros(batch_size, self.hidden_dim, H, W, device=device)
	c = torch.zeros(batch_size, self.hidden_dim, H, W, device=device)
	return h, c


	class ConvLSTM(nn.Module):
	"""Multi-layer ConvLSTM network for next-frame prediction"""

	def __init__(self,
	input_channels: int = 1,
	hidden_channels: List[int] = [64, 64, 64],
	kernel_size: int = 3,
	output_channels: int = 1):
	super().__init__()

	self.input_channels = input_channels
	self.hidden_channels = hidden_channels
	self.num_layers = len(hidden_channels)

	# Stack multiple ConvLSTM cells
	self.cells = nn.ModuleList([
	ConvLSTMCell(
	input_dim=input_channels if i == 0 else hidden_channels[i - 1],
	hidden_dim=hidden_channels[i],
	kernel_size=kernel_size
	)
	for i in range(self.num_layers)
	])

	# Final 1×1 conv to generate output frame
	self.output_conv = nn.Conv2d(hidden_channels[-1], output_channels, kernel_size=1)

	def forward(self, x: torch.Tensor):
	"""
	Args:
	x: (B, T, C, H, W)
	Returns:
	Predicted next frame: (B, C, H, W)
	"""
	B, T, _, H, W = x.size()
	device = x.device

	# Initialize hidden states
	states = [cell.init_hidden(B, (H, W), device) for cell in self.cells]

	# Process input sequence
	for t in range(T):
	x_t = x[:, t]
	for i, cell in enumerate(self.cells):
	h, c = cell(x_t, states[i])
	states[i] = (h, c)
	x_t = h

	# Output predicted frame
	return self.output_conv(states[-1][0])