Raheel Abdul Rehman

Prod Publish

bbf5d55 about 2 months ago

5.66 kB

	import os
	import sys
	import pandas as pd
	import torch
	import torch.nn as nn
	from sklearn.preprocessing import StandardScaler, LabelEncoder
	import json

	sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), '..')))

	base_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
	orig_data_path = os.path.join(base_dir, 'data', 'orig_processed.parquet')
	combined_data_path = os.path.join(base_dir, 'data', 'final_data.parquet')
	resources_dir = os.path.join(base_dir, 'resources')
	os.makedirs(resources_dir, exist_ok=True)

	original_df = pd.read_parquet(orig_data_path)
	combined_df = pd.read_parquet(combined_data_path)

	for df in [original_df, combined_df]:
	df.sort_values(['Ticker', 'Date'], inplace=True)
	df.reset_index(drop=True, inplace=True)

	def add_trend_label(df):
	df['Next_Close'] = df.groupby('Ticker')['Close'].shift(-1)
	df['Trend'] = (df['Next_Close'] > df['Close']).astype(int)
	df.dropna(subset=['Next_Close'], inplace=True)
	return df

	original_df = add_trend_label(original_df)
	combined_df = add_trend_label(combined_df)

	le = LabelEncoder()
	original_df['TickerID'] = le.fit_transform(original_df['Ticker'])
	combined_df['TickerID'] = le.transform(combined_df['Ticker'])

	num_cols = ['Open', 'High', 'Low', 'Close', 'Volume']
	feature_cols = num_cols + ['TickerID']
	target_col = 'Trend'

	original_df = original_df.sort_values(['TickerID', 'Date']).reset_index(drop=True)
	combined_df = combined_df.sort_values(['TickerID', 'Date']).reset_index(drop=True)

	X_orig = original_df[feature_cols]
	y_orig = original_df[target_col]
	X_mix = combined_df[feature_cols]
	y_mix = combined_df[target_col]

	split_idx = int(len(X_orig) * 0.8)
	split_idx_mix = int(len(X_mix) * 0.8)

	X_train_orig, X_test = X_orig.iloc[:split_idx].copy(), X_orig.iloc[split_idx:].copy()
	y_train_orig, y_test = y_orig.iloc[:split_idx].copy(), y_orig.iloc[split_idx:].copy()

	X_train_mix, _ = X_mix.iloc[:split_idx_mix].copy(), X_mix.iloc[split_idx_mix:].copy()
	y_train_mix, _ = y_mix.iloc[:split_idx_mix].copy(), y_mix.iloc[split_idx_mix:].copy()

	scaler = StandardScaler()
	scaler.fit(X_train_orig[num_cols])

	X_train_orig.loc[:, num_cols] = scaler.transform(X_train_orig[num_cols])
	X_train_mix.loc[:, num_cols] = scaler.transform(X_train_mix[num_cols])
	X_test.loc[:, num_cols] = scaler.transform(X_test[num_cols])

	def to_tensor(X, y):
	X_num = torch.tensor(X[num_cols].values, dtype=torch.float32)
	X_ticker = torch.tensor(X['TickerID'].values, dtype=torch.long)
	y = torch.tensor(y.values, dtype=torch.float32).view(-1, 1)
	return X_num, X_ticker, y

	X_train_orig_num, X_train_orig_ticker, y_train_orig_t = to_tensor(X_train_orig, y_train_orig)
	X_train_mix_num, X_train_mix_ticker, y_train_mix_t = to_tensor(X_train_mix, y_train_mix)
	X_test_num, X_test_ticker, y_test_t = to_tensor(X_test, y_test)

	n_tickers_total = max(
	X_train_orig_ticker.max().item(),
	X_train_mix_ticker.max().item(),
	X_test_ticker.max().item()
	) + 1

	class TrendNN(nn.Module):
	def __init__(self, n_tickers, input_dim):
	super().__init__()
	self.ticker_embed = nn.Embedding(n_tickers, 8)
	self.net = nn.Sequential(
	nn.Linear(input_dim + 8, 64),
	nn.ReLU(),
	nn.Linear(64, 32),
	nn.ReLU(),
	nn.Linear(32, 1),
	nn.Sigmoid()
	)

	def forward(self, x_num, ticker_id):
	ticker_vec = self.ticker_embed(ticker_id)
	x = torch.cat([x_num, ticker_vec], dim=1)
	return self.net(x)

	def train_model(X_num, X_ticker, y, X_val, X_val_ticker, y_val, name, epochs=100, batch_size=1024):
	model = TrendNN(n_tickers=n_tickers_total, input_dim=len(num_cols))
	criterion = nn.BCELoss()
	optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

	history = {"train_loss": [], "val_loss": [], "val_acc": []}
	n_samples = len(X_num)

	for epoch in range(epochs):
	model.train()
	perm = torch.randperm(n_samples)
	total_loss = 0

	for i in range(0, n_samples, batch_size):
	idx = perm[i:i+batch_size]
	batch_X_num, batch_ticker, batch_y = X_num[idx], X_ticker[idx], y[idx]

	optimizer.zero_grad()
	y_pred = model(batch_X_num, batch_ticker)
	loss = criterion(y_pred, batch_y)
	loss.backward()
	optimizer.step()
	total_loss += loss.item()

	model.eval()
	with torch.no_grad():
	y_val_pred = model(X_val, X_val_ticker)
	val_loss = criterion(y_val_pred, y_val).item()
	val_acc = ((y_val_pred > 0.5).float() == y_val).float().mean().item()

	avg_train_loss = total_loss / (n_samples // batch_size)
	history["train_loss"].append(avg_train_loss)
	history["val_loss"].append(val_loss)
	history["val_acc"].append(val_acc)

	if (epoch + 1) % 5 == 0:
	print(f"[{name}] Epoch {epoch+1}/{epochs} \| "
	f"Train Loss: {avg_train_loss:.4f} \| Val Loss: {val_loss:.4f} \| Val Acc: {val_acc:.4f}")

	model_path = os.path.join(resources_dir, f"model_{name.lower()}.pt")
	torch.save(model.state_dict(), model_path)
	return model, history

	model_orig, hist_orig = train_model(
	X_train_orig_num, X_train_orig_ticker, y_train_orig_t,
	X_test_num, X_test_ticker, y_test_t, "Original"
	)

	model_mix, hist_mix = train_model(
	X_train_mix_num, X_train_mix_ticker, y_train_mix_t,
	X_test_num, X_test_ticker, y_test_t, "Combined"
	)

	results = {
	"original": hist_orig,
	"combined": hist_mix
	}
	with open(os.path.join(resources_dir, 'training_metrics.json'), "w") as f:
	json.dump(results, f, indent=4)