DeepFin / agents /scripts /data_handler.py

Upload 151 files

b3a7985 verified 8 months ago

20.1 kB

	from typing import List, Tuple
	import pandas as pd
	import numpy as np
	import ccxt
	import pandas_ta as ta
	from datetime import datetime, timedelta, timezone # Adicionado timezone

	# Importa constantes do config.py
	from config import PREDICTION_HORIZON, PRICE_CHANGE_THRESHOLD, BASE_FEATURE_COLS, WINDOW_SIZE


	# Novos inidcadores mover para config
	# Períodos para as novas MAs
	SHORT_MA_PERIOD = 10 # Exemplo: SMA de 10 períodos
	LONG_MA_PERIOD = 50 # Exemplo: SMA de 50 períodos

	# Períodos para ADX
	ADX_PERIOD = 14

	# Níveis para Osciladores Extremos
	RSI_OVERBOUGHT = 70
	RSI_OVERSOLD = 30
	STOCH_OVERBOUGHT = 80 # Para Estocástico %K
	STOCH_OVERSOLD = 20
	CCI_OVERBOUGHT = 100
	CCI_OVERSOLD = -100
	MFI_OVERBOUGHT = 80
	MFI_OVERSOLD = 20

	# Período para Média Móvel do Volume
	VOLUME_AVG_PERIOD = 20

	#Fim NI

	def fetch_ohlcv_data_ccxt(symbol: str, timeframe: str, days_to_fetch: int, limit_per_call: int = 1000) -> pd.DataFrame:
	exchange = ccxt.binance()
	print(f"Buscando dados para {symbol} na {exchange.id} com timeframe {timeframe}...")
	all_ohlcv = []
	since_dt = datetime.now(timezone.utc) - timedelta(days=days_to_fetch)
	since = exchange.parse8601(since_dt.isoformat())

	while True:
	try:
	print(f"Buscando {limit_per_call} candles desde {exchange.iso8601(since)}...")
	ohlcv = exchange.fetch_ohlcv(symbol, timeframe, since, limit_per_call)
	if not ohlcv: break
	all_ohlcv.extend(ohlcv)
	last_timestamp_in_batch = ohlcv[-1][0]
	since = last_timestamp_in_batch + exchange.rateLimit
	print(f"Coletados {len(ohlcv)} candles. Último: {exchange.iso8601(last_timestamp_in_batch)}. Total: {len(all_ohlcv)}")
	if len(ohlcv) < limit_per_call: break
	# Condição de parada mais robusta
	processed_days = (last_timestamp_in_batch - exchange.parse8601(since_dt.isoformat())) / (1000 * 60 * 60 * 24)
	if processed_days >= days_to_fetch:
	break
	except ccxt.NetworkError as e:
	print(f"Erro de rede CCXT: {e}. Tentando novamente em 5s...")
	# Adicionar um retry real aqui seria bom, ou time.sleep(5)
	except ccxt.ExchangeError as e:
	print(f"Erro da Exchange CCXT: {e}. Parando busca.")
	break
	except Exception as e:
	print(f"Erro inesperado no fetch: {e}. Parando busca.")
	break

	if not all_ohlcv:
	raise ValueError("Nenhum dado OHLCV foi coletado.")
	df = pd.DataFrame(all_ohlcv, columns=['timestamp', 'open', 'high', 'low', 'close', 'volume'])
	df['timestamp'] = pd.to_datetime(df['timestamp'], unit='ms')
	df.set_index('timestamp', inplace=True)
	print(f"Total de {len(df)} candles OHLCV coletados para {symbol}.")
	return df

	def calculate_technical_indicators(ohlcv_df: pd.DataFrame) -> pd.DataFrame:
	print("Calculando indicadores técnicos...")
	df = ohlcv_df.copy()
	if ta:
	# Indicadores base
	df.ta.sma(length=10, close='close', append=True, col_names=('sma_10',))
	df.ta.rsi(length=14, close='close', append=True, col_names=('rsi_14',))
	df.ta.log_return(length=14, close='close', append=True, col_names=('log_return',))
	df.ta.macd(close='close', append=True, col_names=('macd', 'macdh', 'macds')) # Pega só 'macd' depois
	df.ta.atr(length=14, append=True, col_names=('atr',))
	df.ta.bbands(length=20, close='close', append=True, col_names=('bbl', 'bbm', 'bbu', 'bbb', 'bbp')) # Pega só 'bbp' depois
	df.ta.cci(length=37, append=True, col_names=('cci_37',)) # Usando o período do exemplo
	df.ta.mfi(length=37, append=True, col_names=('mfi_37',)) # Usando o período do exemplo
	df['body_size'] = abs(df['close'] - df['open'])
	df['body_size_norm_atr'] = df['body_size'] / (df['atr'] + 1e-7)
	avg_body_period = 12 # Do exemplo do EA
	df['avg_body_prev_12'] = df['body_size'].shift(1).rolling(window=avg_body_period).mean() # Média dos 12 corpos anteriores
	df['body_vs_avg_body'] = df['body_size'] / (df['avg_body_prev_12'] + 1e-7)
	# Normalização pelo ATR (APÓS cálculo de ATR e outros indicadores base)
	# Garantir que 'atr' não é zero ou NaN antes da divisão
	df.dropna(subset=['atr'], inplace=True) # Remove linhas onde ATR não pôde ser calculado
	df = df[df['atr'] > 1e-7] # Remove linhas com ATR muito pequeno ou zero
	df['open_div_atr'] = df['open'] / df['atr']
	df['high_div_atr'] = df['high'] / df['atr']
	df['low_div_atr'] = df['low'] / df['atr']
	df['close_div_atr'] = df['close'] / df['atr']
	df['close_div_atr'] = df['close'] / df['atr']
	df['volume_div_atr'] = df['volume'] / df['atr']
	# Assegura que as colunas base para estas normalizações existam
	if 'sma_10' in df.columns:
	df['sma_10_div_atr'] = df['sma_10'] / df['atr']
	if 'macd' in df.columns: # 'macd' é a linha principal do MACD
	df['macd_div_atr'] = df['macd'] / df['atr']

	# ------ Novos indicadores -- #
	# --- Indicadores Base anteriores ---
	if 'sma_10' in BASE_FEATURE_COLS or 'sma_10_div_atr' in BASE_FEATURE_COLS: # Só calcula se for usar
	df.ta.sma(length=10, close='close', append=True, col_names=('sma_10',))
	if 'rsi_14' in BASE_FEATURE_COLS:
	df.ta.rsi(length=14, close='close', append=True, col_names=('rsi_14',))

	# Calcula componentes MACD, mesmo que só use 'macd' depois
	if 'macd' in BASE_FEATURE_COLS or 'macd_div_atr' in BASE_FEATURE_COLS or 'macd_cross_signal' in BASE_FEATURE_COLS:
	macd_results = df.ta.macd(close='close', append=False)
	if macd_results is not None and not macd_results.empty:
	df['macd'] = macd_results.iloc[:,0] # Linha MACD
	df['macds'] = macd_results.iloc[:,1] # Linha de Sinal MACD
	# df['macdh'] = macd_results.iloc[:,2] # Histograma MACD (opcional)

	if 'atr' in BASE_FEATURE_COLS or any('_div_atr' in col for col in BASE_FEATURE_COLS):
	df.ta.atr(length=14, append=True, col_names=('atr',))

	if 'bbp' in BASE_FEATURE_COLS or 'dist_bbu_norm_atr' in BASE_FEATURE_COLS or 'dist_bbl_norm_atr' in BASE_FEATURE_COLS:
	df.ta.bbands(length=20, close='close', append=True, col_names=('bbl', 'bbm', 'bbu', 'bbb', 'bbp'))

	if 'cci_37' in BASE_FEATURE_COLS:
	df.ta.cci(length=37, append=True, col_names=('cci_37',))

	if 'mfi_37' in BASE_FEATURE_COLS:
	df.ta.mfi(length=37, append=True, col_names=('mfi_37',))

	if 'body_size_norm_atr' in BASE_FEATURE_COLS or 'body_vs_avg_body' in BASE_FEATURE_COLS:
	if 'open' in df.columns and 'close' in df.columns:
	df['body_size'] = abs(df['close'] - df['open'])

	# --- 1. Cruzamentos de Médias Móveis ---
	if 'ma_short' not in df.columns and ('ma_cross_signal' in BASE_FEATURE_COLS or 'ma_diff_norm_atr' in BASE_FEATURE_COLS):
	df.ta.sma(length=SHORT_MA_PERIOD, close='close', append=True, col_names=('ma_short',))
	if 'ma_long' not in df.columns and ('ma_cross_signal' in BASE_FEATURE_COLS or 'ma_diff_norm_atr' in BASE_FEATURE_COLS):
	df.ta.sma(length=LONG_MA_PERIOD, close='close', append=True, col_names=('ma_long',))

	if 'ma_cross_signal' in BASE_FEATURE_COLS and 'ma_short' in df.columns and 'ma_long' in df.columns:
	df['ma_short_prev'] = df['ma_short'].shift(1)
	df['ma_long_prev'] = df['ma_long'].shift(1)
	# Sinal de Compra: curta cruza longa para cima
	buy_cross = (df['ma_short_prev'] < df['ma_long_prev']) & (df['ma_short'] > df['ma_long'])
	# Sinal de Venda: curta cruza longa para baixo
	sell_cross = (df['ma_short_prev'] > df['ma_long_prev']) & (df['ma_short'] < df['ma_long'])
	df['ma_cross_signal'] = 0
	df.loc[buy_cross, 'ma_cross_signal'] = 1 # Compra
	df.loc[sell_cross, 'ma_cross_signal'] = -1 # Venda (ou use 2 para outra classe)
	print("TA: Feature 'ma_cross_signal' calculada.")

	if 'ma_diff_norm_atr' in BASE_FEATURE_COLS and 'ma_short' in df.columns and 'ma_long' in df.columns and 'atr' in df.columns:
	df['ma_diff'] = df['ma_short'] - df['ma_long']
	df['ma_diff_norm_atr'] = df['ma_diff'] / (df['atr'] + 1e-9) # Evitar divisão por zero no ATR
	print("TA: Feature 'ma_diff_norm_atr' calculada.")

	# --- 2. Força da Tendência (ADX) ---
	if 'adx_14' in BASE_FEATURE_COLS or 'adx_trend_signal' in BASE_FEATURE_COLS:
	adx_results = df.ta.adx(length=ADX_PERIOD, append=False)
	if adx_results is not None and not adx_results.empty:
	df['adx_14'] = adx_results.iloc[:,0] # ADX
	df['dmp_14'] = adx_results.iloc[:,1] # +DI ou DMP
	df['dmn_14'] = adx_results.iloc[:,2] # -DI ou DMN
	if 'adx_trend_signal' in BASE_FEATURE_COLS:
	df['adx_trend_signal'] = 0
	# ADX > 20-25 geralmente indica tendência. +DI > -DI = tendência de alta.
	strong_uptrend = (df['adx_14'] > 20) & (df['dmp_14'] > df['dmn_14'])
	strong_downtrend = (df['adx_14'] > 20) & (df['dmn_14'] > df['dmp_14'])
	df.loc[strong_uptrend, 'adx_trend_signal'] = 1
	df.loc[strong_downtrend, 'adx_trend_signal'] = -1
	print("TA: Features ADX calculadas.")

	# --- 3. Níveis de Suporte/Resistência Dinâmicos (Distância para BBands normalizada por ATR) ---
	if 'dist_bbu_norm_atr' in BASE_FEATURE_COLS and 'close' in df.columns and 'bbu' in df.columns and 'atr' in df.columns:
	df['dist_bbu_norm_atr'] = (df['bbu'] - df['close']) / (df['atr'] + 1e-9)
	print("TA: Feature 'dist_bbu_norm_atr' calculada.")
	if 'dist_bbl_norm_atr' in BASE_FEATURE_COLS and 'close' in df.columns and 'bbl' in df.columns and 'atr' in df.columns:
	df['dist_bbl_norm_atr'] = (df['close'] - df['bbl']) / (df['atr'] + 1e-9)
	print("TA: Feature 'dist_bbl_norm_atr' calculada.")

	# --- 4. Osciladores em Níveis Extremos ---
	# Estocástico (preciso calcular primeiro)
	if 'stoch_k_extreme' in BASE_FEATURE_COLS or 'stoch_d_extreme' in BASE_FEATURE_COLS:
	stoch_results = df.ta.stoch(k=14, d=3, smooth_k=3, append=False) # Configurações padrão
	if stoch_results is not None and not stoch_results.empty:
	df['stoch_k'] = stoch_results.iloc[:,0] # %K
	df['stoch_d'] = stoch_results.iloc[:,1] # %D
	if 'stoch_k_extreme' in BASE_FEATURE_COLS:
	df['stoch_k_extreme'] = 0
	df.loc[df['stoch_k'] > STOCH_OVERBOUGHT, 'stoch_k_extreme'] = 1 # Sobrecomprado
	df.loc[df['stoch_k'] < STOCH_OVERSOLD, 'stoch_k_extreme'] = -1 # Sobrevendido
	print("TA: Features Estocástico e stoch_k_extreme calculadas.")

	if 'rsi_extreme' in BASE_FEATURE_COLS and 'rsi_14' in df.columns:
	df['rsi_extreme'] = 0
	df.loc[df['rsi_14'] > RSI_OVERBOUGHT, 'rsi_extreme'] = 1
	df.loc[df['rsi_14'] < RSI_OVERSOLD, 'rsi_extreme'] = -1
	print("TA: Feature 'rsi_extreme' calculada.")

	if 'cci_extreme' in BASE_FEATURE_COLS and 'cci_37' in df.columns:
	df['cci_extreme'] = 0
	df.loc[df['cci_37'] > CCI_OVERBOUGHT, 'cci_extreme'] = 1
	df.loc[df['cci_37'] < CCI_OVERSOLD, 'cci_extreme'] = -1
	print("TA: Feature 'cci_extreme' calculada.")

	if 'mfi_extreme' in BASE_FEATURE_COLS and 'mfi_37' in df.columns:
	df['mfi_extreme'] = 0
	df.loc[df['mfi_37'] > MFI_OVERBOUGHT, 'mfi_extreme'] = 1
	df.loc[df['mfi_37'] < MFI_OVERSOLD, 'mfi_extreme'] = -1
	print("TA: Feature 'mfi_extreme' calculada.")

	# --- 5. Sinais Combinados (Simples) ---
	# Ex: RSI sobrevendido E MACD cruzou para cima recentemente?
	if 'rsi_macd_buy_combo' in BASE_FEATURE_COLS and 'rsi_14' in df.columns and 'macd' in df.columns and 'macds' in df.columns:
	rsi_is_oversold = df['rsi_14'] < RSI_OVERSOLD
	# MACD cruzou sinal para cima no candle anterior ou atual
	macd_crossed_up = (df['macd'].shift(1) < df['macds'].shift(1)) & (df['macd'] > df['macds'])
	df['rsi_macd_buy_combo'] = (rsi_is_oversold & macd_crossed_up).astype(int)
	print("TA: Feature 'rsi_macd_buy_combo' calculada.")

	# --- 6. Volume Anômalo ---
	if 'volume_anom_signal' in BASE_FEATURE_COLS and 'volume' in df.columns:
	df['volume_avg'] = df['volume'].rolling(window=VOLUME_AVG_PERIOD).mean()
	# Sinal se volume atual > 2x a média
	df['volume_anom_signal'] = (df['volume'] > 2 * df['volume_avg']).astype(int)
	print("TA: Feature 'volume_anom_signal' calculada.")

	# --- Features de Corpo de Candle (já tinha antes, mas garantindo que serão usadas se estiverem em BASE_FEATURE_COLS) ---
	if 'body_size_norm_atr' in BASE_FEATURE_COLS:
	if 'body_size' in df.columns and 'atr' in df.columns:
	# Re-checar se ATR é válido, pois body_size pode ter menos NaNs
	temp_df_bs = df[['body_size', 'atr']].copy()
	temp_df_bs.dropna(subset=['atr'], inplace=True)
	temp_df_bs = temp_df_bs[temp_df_bs['atr'] > 1e-9]
	if not temp_df_bs.empty:
	df['body_size_norm_atr'] = temp_df_bs['body_size'] / temp_df_bs['atr']
	# print("TA: body_size_norm_atr (re)calculado/verificado.")
	# else:
	# print("AVISO: 'body_size' ou 'atr' ausente para 'body_size_norm_atr'.")

	if 'body_vs_avg_body' in BASE_FEATURE_COLS:
	if 'body_size' in df.columns:
	if 'avg_body_prev' not in df.columns: # Evitar recalcular se já existe
	df['avg_body_prev'] = df['body_size'].shift(1).rolling(window=12).mean()
	df['body_vs_avg_body'] = df['body_size'] / (df['avg_body_prev'] + 1e-7)
	# print("TA: body_vs_avg_body (re)calculado/verificado.")
	# else:
	# print("AVISO: 'body_size' ausente para 'body_vs_avg_body'.")

	# --- Features Derivadas _div_atr (já tinha antes, garantindo que serão usadas se estiverem em BASE_FEATURE_COLS) ---
	df.dropna(subset=['atr'], inplace=True)
	df = df[df['atr'] > 1e-9]

	if 'open_div_atr' in BASE_FEATURE_COLS and 'open' in df.columns: df['open_div_atr'] = df['open'] / df['atr']
	if 'high_div_atr' in BASE_FEATURE_COLS and 'high' in df.columns: df['high_div_atr'] = df['high'] / df['atr']
	if 'low_div_atr' in BASE_FEATURE_COLS and 'low' in df.columns: df['low_div_atr'] = df['low'] / df['atr']
	if 'close_div_atr' in BASE_FEATURE_COLS and 'close' in df.columns: df['close_div_atr'] = df['close'] / df['atr']
	if 'volume_div_atr' in BASE_FEATURE_COLS and 'volume' in df.columns: df['volume_div_atr'] = df['volume'] / df['atr']
	if 'sma_10_div_atr' in BASE_FEATURE_COLS and 'sma_10' in df.columns: df['sma_10_div_atr'] = df['sma_10'] / df['atr']
	if 'macd_div_atr' in BASE_FEATURE_COLS and 'macd' in df.columns: df['macd_div_atr'] = df['macd'] / df['atr']

	if 'log_return_1' in BASE_FEATURE_COLS and 'close' in df.columns:
	df['log_return_1'] = np.log(df['close'] / df['close'].shift(1))

	# Novas features AD e volume
	rolling_vol_mean = df['volume'].rolling(window=20).mean()
	rolling_vol_std = df['volume'].rolling(window=20).std()
	df['volume_zscore'] = (df['volume'] - rolling_vol_mean) / (rolling_vol_std + 1e-7)

	# Certifique-se que MACD, MACDS, SMA_50 já foram calculados
	df.ta.sma(length=50, close='close', append=True, col_names=('sma_50',))
	df['buy_condition_v1'] = ((df['macd'] > df['macds']) & (df['rsi_14'] > 50) & (df['close'] > df['sma_50'])).astype(int)

	df['cond_compra_v1'] = ((df['macd'] > df['macds']) & (df['rsi_14'] > 50) & (df['close'] > df.ta.sma(length=50, append=False))).astype(int)



	df.dropna(inplace=True)

	final_cols_present = [col for col in BASE_FEATURE_COLS if col in df.columns]
	if len(final_cols_present) != len(BASE_FEATURE_COLS):
	missing = list(set(BASE_FEATURE_COLS) - set(final_cols_present))
	print(f"ALERTA: Após todos os cálculos, colunas de BASE_FEATURE_COLS estão faltando: {missing}")
	print(f"Verifique os cálculos e se as colunas base para eles (open, high, low, close, volume) existem no input.")
	print(f"Colunas disponíveis: {df.columns.tolist()}")
	# raise ValueError(f"Nem todas as features base foram geradas: {missing}")

	# Selecionar apenas as colunas que realmente existem e estão em BASE_FEATURE_COLS
	# para evitar erros se alguma não pôde ser calculada.
	# O script de treino verificará se todas as BASE_FEATURE_COLS existem antes de escalar.
	existing_base_features = [col for col in BASE_FEATURE_COLS if col in df.columns]
	print(f"Indicadores técnicos e features derivadas calculadas. Features retornadas: {existing_base_features}")
	return df[existing_base_features + (['open', 'high', 'low', 'close', 'volume'] if not any(c in existing_base_features for c in ['open', 'high', 'low', 'close', 'volume']) else [])] # Garante que OHLCV original está lá para calculate_targets, se não for parte das features



	# ---- Fim NI

	# Remover todos os NaNs restantes gerados pelos indicadores
	df.dropna(inplace=True)
	print("Indicadores técnicos calculados e features normalizadas pelo ATR criadas.")
	else:
	print("pandas_ta não disponível. Verifique a instalação.")
	return df

	def calculate_targets(df: pd.DataFrame, horizon: int, threshold: float) -> pd.DataFrame:
	print("Criando coluna alvo para predição...")
	data = df.copy()
	data['future_price'] = data['close'].shift(-horizon)
	data['price_change_pct'] = (data['future_price'] - data['close']) / data['close']
	data['target'] = (data['price_change_pct'] > threshold).astype(int)
	data.dropna(subset=['future_price', 'price_change_pct', 'target'], inplace=True)
	print(f"Distribuição do Alvo:\n{data['target'].value_counts(normalize=True, dropna=False)}")
	return data

	def create_sequences(data: pd.DataFrame, target_col_name: str, window_size: int, feature_col_names: List[str]) -> tuple[np.ndarray, np.ndarray]:
	print(f"Criando sequências com window_size={window_size} usando features: {feature_col_names}")
	X_list, y_list = [], []

	# Verificar se todas as feature_col_names e target_col_name existem no DataFrame
	required_cols = feature_col_names + [target_col_name]
	missing_cols = [col for col in required_cols if col not in data.columns]
	if missing_cols:
	raise ValueError(f"Colunas ausentes no DataFrame para criar sequências: {missing_cols}. Colunas disponíveis: {data.columns.tolist()}")

	# Usar .values pode ser mais rápido para DataFrames grandes, mas indexar por nome é mais seguro
	feature_values = data[feature_col_names].values
	target_values = data[target_col_name].values

	for i in range(len(feature_values) - window_size + 1): # Ajuste no loop para incluir o último elemento possível
	X_list.append(feature_values[i : i + window_size])
	y_list.append(target_values[i + window_size - 1]) # Alvo correspondente ao final da janela

	X = np.array(X_list)
	y = np.array(y_list)
	print(f"Shape de X (sequências): {X.shape}, Shape de y (alvos): {y.shape}")
	return X, y