Spaces:

ViniciusKhan
/

CleanSight-API

Sleeping

File size: 43,592 Bytes

353535d

import os
import io
import csv
import json
import base64
import tempfile
import traceback
import math
import statistics
from collections import Counter
from flask import Blueprint, request, jsonify, send_file, current_app
import chardet

preprocessing_bp = Blueprint('preprocessing', __name__)

# Diretório temporário para armazenar arquivos
TEMP_DIR = tempfile.gettempdir()
CURRENT_FILE = None
PROCESSED_FILE = None
DATASET_INFO = None

def detect_encoding(file_path):
    """Detecta o encoding do arquivo de forma robusta"""
    try:
        with open(file_path, 'rb') as f:
            raw_data = f.read(100000)
            result = chardet.detect(raw_data)
            encoding = result['encoding']
            confidence = result['confidence']
            
            encodings_to_try = []
            if confidence and confidence > 0.7:
                encodings_to_try.append(encoding)
            
            encodings_to_try.extend(['utf-8', 'latin-1', 'iso-8859-1', 'cp1252', 'utf-16'])
            
            seen = set()
            unique_encodings = []
            for enc in encodings_to_try:
                if enc and enc not in seen:
                    seen.add(enc)
                    unique_encodings.append(enc)
            
            for enc in unique_encodings:
                try:
                    with open(file_path, 'r', encoding=enc, errors='replace') as test_f:
                        sample = test_f.read(5000)
                        replacement_ratio = sample.count('�') / len(sample) if sample else 1
                        if replacement_ratio < 0.1:
                            return enc
                except:
                    continue
            
            return 'utf-8'
    except:
        return 'utf-8'

def detect_delimiter(file_path, encoding):
    """Detecta o delimitador do arquivo CSV de forma inteligente"""
    try:
        with open(file_path, 'r', encoding=encoding, errors='replace') as f:
            lines = []
            for i, line in enumerate(f):
                if i >= 10:
                    break
                lines.append(line.strip())
        
        if not lines:
            return ','
        
        delimiters = [';', ',', '\t', '|', ':', ' ']
        delimiter_scores = {}
        
        for delimiter in delimiters:
            scores = []
            for line in lines:
                if line:
                    parts = line.split(delimiter)
                    scores.append(len(parts))
            
            if scores:
                avg_parts = statistics.mean(scores)
                if len(scores) > 1:
                    std_dev = statistics.stdev(scores)
                    consistency = 1 / (1 + std_dev)
                else:
                    consistency = 1
                
                final_score = avg_parts * consistency
                delimiter_scores[delimiter] = final_score
        
        if delimiter_scores:
            best_delimiter = max(delimiter_scores, key=delimiter_scores.get)
            if delimiter_scores[best_delimiter] >= 2:
                return best_delimiter
        
        return ','
    except:
        return ','

def safe_convert_numeric(value):
    """Converte valor para numérico de forma segura"""
    if not value or not str(value).strip():
        return None
    
    try:
        clean_value = str(value).strip().replace(',', '.')
        import re
        clean_value = re.sub(r'[^\d\.\-]', '', clean_value)
        
        if not clean_value or clean_value == '.' or clean_value == '-':
            return None
            
        return float(clean_value)
    except:
        return None

def analyze_column_type_advanced(values):
    """Analisa o tipo de uma coluna de forma mais inteligente"""
    non_empty_values = [v for v in values if v and str(v).strip()]
    
    if not non_empty_values:
        return 'object'
    
    numeric_count = 0
    integer_count = 0
    date_like_count = 0
    boolean_count = 0
    
    for value in non_empty_values:
        str_value = str(value).strip().lower()
        
        if str_value in ['true', 'false', 'yes', 'no', 'sim', 'não', '1', '0', 'y', 'n', 's']:
            boolean_count += 1
            continue
        
        numeric_val = safe_convert_numeric(value)
        if numeric_val is not None:
            numeric_count += 1
            if numeric_val.is_integer():
                integer_count += 1
            continue
        
        import re
        date_patterns = [
            r'\d{1,2}[/-]\d{1,2}[/-]\d{2,4}',
            r'\d{4}[/-]\d{1,2}[/-]\d{1,2}',
            r'\d{1,2}[/-]\d{1,2}[/-]\d{2}',
        ]
        
        for pattern in date_patterns:
            if re.match(pattern, str_value):
                date_like_count += 1
                break
    
    total_values = len(non_empty_values)
    
    numeric_ratio = numeric_count / total_values
    boolean_ratio = boolean_count / total_values
    date_ratio = date_like_count / total_values
    
    if boolean_ratio > 0.8:
        return 'boolean'
    
    if date_ratio > 0.8:
        return 'datetime'
    
    if numeric_ratio > 0.8:
        if integer_count == numeric_count:
            return 'int64'
        else:
            return 'float64'
    
    unique_ratio = len(set(non_empty_values)) / total_values
    if unique_ratio < 0.5 and len(set(non_empty_values)) < 20:
        return 'category'
    
    return 'object'

def read_dataset_file_enhanced(file_path):
    """Lê um arquivo de dataset com detecção automática super robusta"""
    try:
        file_ext = os.path.splitext(file_path)[1].lower()
        
        if file_ext in ['.xlsx', '.xls']:
            return {'success': False, 'error': 'Suporte a Excel não disponível. Por favor, converta para CSV.'}
        
        encoding = detect_encoding(file_path)
        delimiter = detect_delimiter(file_path, encoding)
        
        print(f"Arquivo: {os.path.basename(file_path)}")
        print(f"Encoding detectado: {encoding}")
        print(f"Delimitador detectado: '{delimiter}'")
        
        with open(file_path, 'r', encoding=encoding, errors='replace') as f:
            first_line = f.readline().strip()
            if not first_line:
                return {'success': False, 'error': 'Arquivo vazio ou sem conteúdo válido'}
            
            headers = [h.strip().strip('"').strip("'") for h in first_line.split(delimiter)]
            
            if headers and headers[0].startswith('\ufeff'):
                headers[0] = headers[0][1:]
            
            cleaned_headers = []
            for i, header in enumerate(headers):
                if not header or header.isspace():
                    cleaned_headers.append(f'Column_{i+1}')
                else:
                    import re
                    clean_header = re.sub(r'[^\w\s\-_]', '', header)
                    clean_header = clean_header.strip()
                    if not clean_header:
                        clean_header = f'Column_{i+1}'
                    cleaned_headers.append(clean_header)
            
            headers = cleaned_headers
            
            f.seek(0)
            reader = csv.reader(f, delimiter=delimiter)
            next(reader)
            
            rows = []
            max_rows = 50000
            
            for row_num, row in enumerate(reader):
                if row_num >= max_rows:
                    break
                
                if not any(cell.strip() for cell in row):
                    continue
                
                while len(row) < len(headers):
                    row.append('')
                
                if len(row) > len(headers):
                    row = row[:len(headers)]
                
                rows.append(row)
        
        if not rows:
            return {'success': False, 'error': 'Nenhuma linha de dados válida encontrada'}
        
        print(f"Linhas lidas: {len(rows)}")
        print(f"Colunas: {len(headers)}")
        
        dtypes = {}
        missing_values = {}
        unique_values = {}
        sample_values = {}
        
        for i, col in enumerate(headers):
            col_values = [row[i] if i < len(row) else '' for row in rows]
            
            missing_count = sum(1 for v in col_values if not v or not str(v).strip())
            missing_values[col] = missing_count
            
            non_empty_values = [v for v in col_values if v and str(v).strip()]
            unique_count = len(set(non_empty_values))
            unique_values[col] = unique_count
            
            sample_values[col] = non_empty_values[:5] if non_empty_values else []
            
            dtypes[col] = analyze_column_type_advanced(col_values)
        
        seen = set()
        duplicates = 0
        for row in rows:
            row_tuple = tuple(row)
            if row_tuple in seen:
                duplicates += 1
            else:
                seen.add(row_tuple)
        
        numeric_columns = [col for col, dtype in dtypes.items() if dtype in ('int64', 'float64')]
        categorical_columns = [col for col, dtype in dtypes.items() if dtype in ('object', 'category')]
        boolean_columns = [col for col, dtype in dtypes.items() if dtype == 'boolean']
        datetime_columns = [col for col, dtype in dtypes.items() if dtype == 'datetime']
        
        total_cells = len(rows) * len(headers)
        total_missing = sum(missing_values.values())
        data_quality = {
            'completeness': ((total_cells - total_missing) / total_cells * 100) if total_cells > 0 else 0,
            'uniqueness': (len(rows) - duplicates) / len(rows) * 100 if len(rows) > 0 else 0,
            'consistency': 100
        }
        
        return {
            'success': True,
            'info': {
                'filename': os.path.basename(file_path),
                'shape': (len(rows), len(headers)),
                'columns': headers,
                'dtypes': dtypes,
                'missing_values': missing_values,
                'unique_values': unique_values,
                'sample_values': sample_values,
                'duplicates': duplicates,
                'numeric_columns': numeric_columns,
                'categorical_columns': categorical_columns,
                'boolean_columns': boolean_columns,
                'datetime_columns': datetime_columns,
                'data_quality': data_quality,
                'encoding_used': encoding,
                'delimiter_used': delimiter
            }
        }
    
    except Exception as e:
        print(f"Erro ao ler arquivo: {str(e)}")
        traceback.print_exc()
        return {'success': False, 'error': f"Erro ao ler arquivo: {str(e)}"}

@preprocessing_bp.route('/upload', methods=['POST'])
def upload_file():
    """Endpoint para upload de arquivo melhorado"""
    global CURRENT_FILE, DATASET_INFO
    
    try:
        if 'file' not in request.files:
            return jsonify({'success': False, 'error': 'Nenhum arquivo enviado'})
        
        file = request.files['file']
        if file.filename == '':
            return jsonify({'success': False, 'error': 'Nome de arquivo vazio'})
        
        allowed_extensions = ['.csv', '.txt', '.tsv']
        file_ext = os.path.splitext(file.filename)[1].lower()
        if file_ext not in allowed_extensions:
            return jsonify({
                'success': False, 
                'error': f'Tipo de arquivo não suportado. Use: {", ".join(allowed_extensions)}'
            })
        
        file.seek(0, 2)
        file_size = file.tell()
        file.seek(0)
        
        max_size = 50 * 1024 * 1024
        if file_size > max_size:
            return jsonify({
                'success': False, 
                'error': f'Arquivo muito grande. Tamanho máximo: 50MB'
            })
        
        safe_filename = "".join(c for c in file.filename if c.isalnum() or c in (' ', '.', '_', '-')).rstrip()
        file_path = os.path.join(TEMP_DIR, f"dataset_{safe_filename}")
        file.save(file_path)
        CURRENT_FILE = file_path
        
        result = read_dataset_file_enhanced(file_path)
        
        if result['success']:
            DATASET_INFO = result['info']
            print(f"Dataset carregado com sucesso: {DATASET_INFO['shape']}")
        
        return jsonify(result)
    
    except Exception as e:
        print(f"Erro no upload: {str(e)}")
        traceback.print_exc()
        return jsonify({'success': False, 'error': f"Erro no upload do arquivo: {str(e)}"})

@preprocessing_bp.route('/analyze', methods=['POST'])
def analyze_dataset():
    """Endpoint para análise inicial do dataset melhorada"""
    global CURRENT_FILE, DATASET_INFO
    
    try:
        if not CURRENT_FILE or not os.path.exists(CURRENT_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo carregado'})
        
        data = request.json
        target_column = data.get('target_column')
        
        if not target_column:
            return jsonify({'success': False, 'error': 'Coluna target não especificada'})
        
        if not DATASET_INFO:
            return jsonify({'success': False, 'error': 'Informações do dataset não disponíveis'})
        
        if target_column not in DATASET_INFO['columns']:
            return jsonify({'success': False, 'error': f'Coluna {target_column} não encontrada'})
        
        encoding = DATASET_INFO.get('encoding_used', 'utf-8')
        delimiter = DATASET_INFO.get('delimiter_used', ',')
        
        with open(CURRENT_FILE, 'r', encoding=encoding, errors='replace') as f:
            reader = csv.reader(f, delimiter=delimiter)
            headers = next(reader)
            
            headers = [h.strip().strip('"').strip("'") for h in headers]
            if headers and headers[0].startswith('\ufeff'):
                headers[0] = headers[0][1:]
            
            try:
                target_idx = headers.index(target_column)
            except ValueError:
                return jsonify({'success': False, 'error': f'Coluna {target_column} não encontrada'})
            
            rows = list(reader)
        
        target_values = []
        for row in rows:
            if target_idx < len(row) and row[target_idx].strip():
                target_values.append(row[target_idx].strip())
        
        target_classes = Counter(target_values)
        total_target_values = len(target_values)
        missing_target = len(rows) - total_target_values
        
        if target_classes:
            class_counts = list(target_classes.values())
            min_class = min(class_counts)
            max_class = max(class_counts)
            balance_ratio = min_class / max_class if max_class > 0 else 1
            needs_balancing = balance_ratio < 0.8
        else:
            balance_ratio = 1
            needs_balancing = False
        
        ml_readiness = {
            'target_quality': 'good' if missing_target == 0 else 'needs_attention',
            'class_balance': 'good' if balance_ratio > 0.8 else 'imbalanced',
            'data_completeness': DATASET_INFO['data_quality']['completeness'],
            'recommendation': []
        }
        
        if missing_target > 0:
            ml_readiness['recommendation'].append(f'Remover {missing_target} linhas com target ausente')
        
        if needs_balancing:
            ml_readiness['recommendation'].append('Considerar balanceamento de classes')
        
        if DATASET_INFO['data_quality']['completeness'] < 90:
            ml_readiness['recommendation'].append('Tratar valores ausentes nas features')
        
        total_missing = sum(DATASET_INFO['missing_values'].values())
        total_cells = DATASET_INFO['shape'][0] * DATASET_INFO['shape'][1]
        missing_percentage = (total_missing / total_cells) * 100 if total_cells > 0 else 0
        
        return jsonify({
            'success': True,
            'analysis': {
                'target_column': target_column,
                'target_type': DATASET_INFO['dtypes'].get(target_column, 'object'),
                'target_classes': dict(target_classes),
                'target_balance_ratio': balance_ratio,
                'missing_target_values': missing_target,
                'total_missing_percentage': missing_percentage,
                'duplicates_count': DATASET_INFO['duplicates'],
                'numeric_columns_count': len(DATASET_INFO['numeric_columns']),
                'categorical_columns_count': len(DATASET_INFO['categorical_columns']),
                'boolean_columns_count': len(DATASET_INFO['boolean_columns']),
                'datetime_columns_count': len(DATASET_INFO['datetime_columns']),
                'dataset_shape': DATASET_INFO['shape'],
                'data_quality': DATASET_INFO['data_quality'],
                'ml_readiness': ml_readiness,
                'needs_balancing': needs_balancing
            }
        })
    
    except Exception as e:
        print(f"Erro na análise: {str(e)}")
        traceback.print_exc()
        return jsonify({'success': False, 'error': f"Erro na análise: {str(e)}"})

@preprocessing_bp.route('/process', methods=['POST'])
def process_dataset():
    """Endpoint para processamento completo do dataset com configurações"""
    global CURRENT_FILE, PROCESSED_FILE, DATASET_INFO
    
    try:
        if not CURRENT_FILE or not os.path.exists(CURRENT_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo carregado'})
        
        data = request.json
        target_column = data.get('target_column')
        config = data.get('config', {})
        
        if not target_column:
            return jsonify({'success': False, 'error': 'Coluna target não especificada'})
        
        print(f"Configurações recebidas: {config}")
        
        encoding = DATASET_INFO.get('encoding_used', 'utf-8')
        delimiter = DATASET_INFO.get('delimiter_used', ',')
        
        with open(CURRENT_FILE, 'r', encoding=encoding, errors='replace') as f:
            reader = csv.reader(f, delimiter=delimiter)
            headers = next(reader)
            
            headers = [h.strip().strip('"').strip("'") for h in headers]
            if headers and headers[0].startswith('\ufeff'):
                headers[0] = headers[0][1:]
            
            rows = list(reader)
        
        try:
            target_idx = headers.index(target_column)
        except ValueError:
            return jsonify({'success': False, 'error': f'Coluna {target_column} não encontrada'})
        
        processing_stats = {
            'original_rows': len(rows),
            'original_columns': len(headers),
            'missing_values_treated': 0,
            'duplicates_removed': 0,
            'outliers_removed': 0,
            'categorical_encoded': 0,
            'boolean_encoded': 0,
            'normalized_columns': 0,
            'balanced_samples': 0
        }
        
        print(f"Iniciando processamento: {len(rows)} linhas, {len(headers)} colunas")
        
        # 1. Remove linhas com target ausente
        valid_rows = []
        for row in rows:
            if target_idx < len(row) and row[target_idx].strip():
                valid_rows.append(row)
        
        processing_stats['missing_target_removed'] = len(rows) - len(valid_rows)
        print(f"Após remoção de target ausente: {len(valid_rows)} linhas")
        
        # 2. Remove duplicatas (se configurado)
        if config.get('remove_duplicates', True):
            seen = set()
            unique_rows = []
            for row in valid_rows:
                row_tuple = tuple(row)
                if row_tuple not in seen:
                    seen.add(row_tuple)
                    unique_rows.append(row)
                else:
                    processing_stats['duplicates_removed'] += 1
            valid_rows = unique_rows
            print(f"Após remoção de duplicatas: {len(valid_rows)} linhas")
        
        # 3. Trata valores ausentes (se configurado)
        if config.get('treat_missing', True):
            for i, header in enumerate(headers):
                if i == target_idx:
                    continue
                
                col_type = DATASET_INFO['dtypes'].get(header, 'object')
                col_values = [row[i] if i < len(row) else '' for row in valid_rows]
                non_empty_values = [v for v in col_values if v and str(v).strip()]
                
                if not non_empty_values:
                    continue
                
                if col_type in ('int64', 'float64'):
                    numeric_values = [safe_convert_numeric(v) for v in non_empty_values]
                    numeric_values = [v for v in numeric_values if v is not None]
                    
                    if numeric_values:
                        fill_value = statistics.median(numeric_values)
                        
                        for row in valid_rows:
                            if i >= len(row) or not row[i] or not str(row[i]).strip():
                                if i >= len(row):
                                    row.extend([''] * (i - len(row) + 1))
                                row[i] = str(fill_value)
                                processing_stats['missing_values_treated'] += 1
                
                else:
                    value_counts = Counter(non_empty_values)
                    fill_value = value_counts.most_common(1)[0][0]
                    
                    for row in valid_rows:
                        if i >= len(row) or not row[i] or not str(row[i]).strip():
                            if i >= len(row):
                                row.extend([''] * (i - len(row) + 1))
                            row[i] = fill_value
                            processing_stats['missing_values_treated'] += 1
        
        print(f"Valores ausentes tratados: {processing_stats['missing_values_treated']}")
        
        # 4. Codifica variáveis categóricas (se configurado)
        categorical_mappings = {}
        
        if config.get('encode_categories', True):
            for i, header in enumerate(headers):
                if i == target_idx:
                    continue
                
                col_type = DATASET_INFO['dtypes'].get(header, 'object')
                
                if col_type == 'boolean':
                    col_values = [row[i] if i < len(row) else '' for row in valid_rows]
                    unique_vals = list(set(v for v in col_values if v and str(v).strip()))
                    
                    if len(unique_vals) <= 10:
                        mapping = {}
                        for val in unique_vals:
                            val_lower = str(val).lower()
                            if val_lower in ['true', 'yes', 'sim', '1', 'y', 's']:
                                mapping[val] = '1'
                            else:
                                mapping[val] = '0'
                        
                        categorical_mappings[header] = mapping
                        
                        for row in valid_rows:
                            if i < len(row) and row[i] in mapping:
                                row[i] = mapping[row[i]]
                                processing_stats['boolean_encoded'] += 1
                
                elif col_type in ('object', 'category'):
                    col_values = [row[i] if i < len(row) else '' for row in valid_rows]
                    unique_vals = list(set(v for v in col_values if v and str(v).strip()))
                    
                    if len(unique_vals) <= 100:
                        mapping = {val: str(idx) for idx, val in enumerate(sorted(unique_vals))}
                        categorical_mappings[header] = mapping
                        
                        for row in valid_rows:
                            if i < len(row) and row[i] in mapping:
                                row[i] = mapping[row[i]]
                                processing_stats['categorical_encoded'] += 1
        
        print(f"Variáveis codificadas: {processing_stats['categorical_encoded'] + processing_stats['boolean_encoded']}")
        
        # 5. Normalização (se configurado)
        if config.get('normalize_data', False):
            for i, header in enumerate(headers):
                if i == target_idx:
                    continue
                
                col_type = DATASET_INFO['dtypes'].get(header, 'object')
                if col_type in ('int64', 'float64'):
                    col_values = [safe_convert_numeric(row[i]) for row in valid_rows]
                    col_values = [v for v in col_values if v is not None]
                    
                    if len(col_values) > 1:
                        mean_val = statistics.mean(col_values)
                        std_val = statistics.stdev(col_values)
                        
                        if std_val > 0:
                            for row in valid_rows:
                                if i < len(row):
                                    val = safe_convert_numeric(row[i])
                                    if val is not None:
                                        normalized = (val - mean_val) / std_val
                                        row[i] = str(normalized)
                            
                            processing_stats['normalized_columns'] += 1
        
        # 6. Codifica a coluna target
        target_values = [row[target_idx] for row in valid_rows]
        unique_targets = list(set(target_values))
        target_mapping = {val: str(idx) for idx, val in enumerate(sorted(unique_targets))}
        
        for row in valid_rows:
            if row[target_idx] in target_mapping:
                row[target_idx] = target_mapping[row[target_idx]]
        
        # 7. Seleção de features (se configurado)
        if config.get('select_features', True):
            feature_indices = [i for i in range(len(headers)) if i != target_idx]
            
            if len(feature_indices) > 2:
                num_features_percent = config.get('num_features_percent', 50)
                num_features_to_keep = max(1, int(len(feature_indices) * num_features_percent / 100))
                
                # Simula seleção baseada em importância
                feature_scores = []
                for idx in feature_indices:
                    col_values = [safe_convert_numeric(row[idx]) for row in valid_rows]
                    col_values = [v for v in col_values if v is not None]
                    
                    if col_values and len(set(col_values)) > 1:
                        variance = statistics.variance(col_values) if len(col_values) > 1 else 0
                        score = variance + len(set(col_values)) / len(col_values)
                    else:
                        score = 0
                    
                    feature_scores.append((idx, score))
                
                feature_scores.sort(key=lambda x: x[1], reverse=True)
                selected_features = [idx for idx, score in feature_scores[:num_features_to_keep]]
            else:
                selected_features = feature_indices
        else:
            selected_features = [i for i in range(len(headers)) if i != target_idx]
        
        # 8. Balanceamento de classes (se configurado)
        if config.get('balance_classes', False):
            target_values = [row[target_idx] for row in valid_rows]
            target_counts = Counter(target_values)
            
            if len(target_counts) > 1:
                max_count = max(target_counts.values())
                balanced_rows = []
                
                for target_class in target_counts:
                    class_rows = [row for row in valid_rows if row[target_idx] == target_class]
                    current_count = len(class_rows)
                    
                    balanced_rows.extend(class_rows)
                    
                    if current_count < max_count:
                        needed = max_count - current_count
                        for _ in range(needed):
                            import random
                            random_row = random.choice(class_rows).copy()
                            balanced_rows.append(random_row)
                
                processing_stats['balanced_samples'] = len(balanced_rows) - len(valid_rows)
                valid_rows = balanced_rows
        
        # Cria headers finais
        final_headers = [headers[i] for i in selected_features] + [headers[target_idx]]
        final_indices = selected_features + [target_idx]
        
        # Cria dataset final
        final_rows = []
        for row in valid_rows:
            final_row = [row[i] if i < len(row) else '' for i in final_indices]
            final_rows.append(final_row)
        
        print(f"Dataset final: {len(final_rows)} linhas, {len(final_headers)} colunas")
        
        # Salva arquivo processado
        processed_filename = f"processed_{os.path.basename(CURRENT_FILE)}"
        processed_path = os.path.join(TEMP_DIR, processed_filename)
        
        with open(processed_path, 'w', newline='', encoding='utf-8') as f:
            writer = csv.writer(f)
            writer.writerow(final_headers)
            writer.writerows(final_rows)
        
        PROCESSED_FILE = processed_path
        
        # Estatísticas finais
        processing_stats.update({
            'final_rows': len(final_rows),
            'final_columns': len(final_headers),
            'features_selected': len(selected_features),
            'target_mapping': target_mapping,
            'categorical_mappings': categorical_mappings,
            'improvement_ratio': len(final_rows) / len(rows) if len(rows) > 0 else 0
        })
        
        return jsonify({
            'success': True,
            'processing_stats': processing_stats,
            'final_shape': (len(final_rows), len(final_headers)),
            'final_columns': final_headers,
            'data_quality_improvement': {
                'completeness_before': DATASET_INFO['data_quality']['completeness'],
                'completeness_after': 100,
                'duplicates_removed': processing_stats['duplicates_removed'],
                'features_optimized': len([i for i in range(len(headers)) if i != target_idx]) - len(selected_features)
            }
        })
    
    except Exception as e:
        print(f"Erro no processamento: {str(e)}")
        traceback.print_exc()
        return jsonify({'success': False, 'error': f"Erro no processamento: {str(e)}"})

@preprocessing_bp.route('/download', methods=['GET'])
def download_processed():
    """Endpoint para download do arquivo processado"""
    global PROCESSED_FILE
    
    try:
        if not PROCESSED_FILE or not os.path.exists(PROCESSED_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo processado disponível'})
        
        return send_file(
            PROCESSED_FILE,
            as_attachment=True,
            download_name=f"processed_dataset.csv",
            mimetype='text/csv'
        )
    
    except Exception as e:
        print(f"Erro no download: {str(e)}")
        return jsonify({'success': False, 'error': f"Erro no download: {str(e)}"})

@preprocessing_bp.route('/clear', methods=['POST'])
def clear_session():
    """Endpoint para limpar sessão"""
    global CURRENT_FILE, PROCESSED_FILE, DATASET_INFO
    
    try:
        if CURRENT_FILE and os.path.exists(CURRENT_FILE):
            os.remove(CURRENT_FILE)
        
        if PROCESSED_FILE and os.path.exists(PROCESSED_FILE):
            os.remove(PROCESSED_FILE)
        
        CURRENT_FILE = None
        PROCESSED_FILE = None
        DATASET_INFO = None
        
        return jsonify({'success': True, 'message': 'Sessão limpa com sucesso'})
    
    except Exception as e:
        print(f"Erro ao limpar sessão: {str(e)}")
        return jsonify({'success': False, 'error': f"Erro ao limpar sessão: {str(e)}"})

def create_simple_plot(plot_type, title):
    """Cria um gráfico simples simulado"""
    import matplotlib
    matplotlib.use('Agg')  # Backend não-interativo
    import matplotlib.pyplot as plt
    import numpy as np
    
    try:
        fig, ax = plt.subplots(figsize=(10, 6))
        
        if plot_type == 'correlation':
            # Simula matriz de correlação
            data = np.random.rand(5, 5)
            im = ax.imshow(data, cmap='coolwarm', aspect='auto')
            ax.set_title(title)
            plt.colorbar(im)
            
        elif plot_type == 'pca':
            # Simula PCA 2D
            np.random.seed(42)
            x = np.random.randn(100)
            y = np.random.randn(100)
            colors = np.random.choice(['red', 'blue', 'green'], 100)
            ax.scatter(x, y, c=colors, alpha=0.6)
            ax.set_xlabel('PC1 (52.3%)')
            ax.set_ylabel('PC2 (28.7%)')
            ax.set_title(title)
            
        elif plot_type == 'outliers':
            # Simula detecção de outliers
            np.random.seed(42)
            normal_data = np.random.randn(200, 2)
            outliers = np.random.randn(20, 2) * 3 + 5
            
            ax.scatter(normal_data[:, 0], normal_data[:, 1], c='blue', alpha=0.6, label='Normal')
            ax.scatter(outliers[:, 0], outliers[:, 1], c='red', alpha=0.8, label='Outliers')
            ax.set_title(title)
            ax.legend()
            
        else:
            # Gráfico genérico
            x = np.linspace(0, 10, 100)
            y = np.sin(x) + np.random.randn(100) * 0.1
            ax.plot(x, y)
            ax.set_title(title)
        
        # Salva em buffer
        buffer = io.BytesIO()
        plt.savefig(buffer, format='png', dpi=150, bbox_inches='tight')
        buffer.seek(0)
        
        # Converte para base64
        import base64
        plot_data = base64.b64encode(buffer.getvalue()).decode('utf-8')
        plt.close(fig)
        
        return f"data:image/png;base64,{plot_data}"

    except Exception as e:
        print(f"Erro ao criar gráfico: {str(e)}")
        # Retorna placeholder se der erro
        return f"data:image/png;base64,{base64.b64encode(b'Plot Error').decode('utf-8')}"


def perform_pca(target_column: str, n_components: int):
    """Executa PCA real baseado na coluna target"""
    import pandas as pd
    from sklearn.preprocessing import StandardScaler
    from sklearn.decomposition import PCA

    encoding = DATASET_INFO.get('encoding_used', 'utf-8')
    delimiter = DATASET_INFO.get('delimiter_used', ',')

    df = pd.read_csv(CURRENT_FILE, delimiter=delimiter, encoding=encoding)

    if target_column not in df.columns:
        raise ValueError(f'Coluna {target_column} não encontrada')

    df = df.dropna(subset=[target_column])

    y = df[target_column].astype(str)
    X = df.drop(columns=[target_column])
    X = pd.get_dummies(X, drop_first=True)
    X = X.apply(pd.to_numeric, errors='coerce').fillna(0)

    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)

    pca = PCA(n_components=n_components)
    comps = pca.fit_transform(X_scaled)

    explained = [float(round(v, 3)) for v in pca.explained_variance_ratio_]
    cumulative = float(round(sum(pca.explained_variance_ratio_), 3))

    return comps, y, explained, cumulative


def create_pca_plot(target_column: str, title: str):
    """Gera figura PCA 2D utilizando matplotlib"""
    import matplotlib
    matplotlib.use('Agg')
    import matplotlib.pyplot as plt
    import pandas as pd

    try:
        comps, labels, explained, cumulative = perform_pca(target_column, 2)

        unique_labels = sorted(set(labels))
        cmap = plt.cm.get_cmap('tab10', len(unique_labels))

        fig, ax = plt.subplots(figsize=(10, 6))
        for idx, lbl in enumerate(unique_labels):
            mask = [l == lbl for l in labels]
            ax.scatter(comps[mask, 0], comps[mask, 1], color=cmap(idx), label=str(lbl), alpha=0.7)

        ax.set_xlabel(f'PC1 ({explained[0]*100:.1f}%)')
        ax.set_ylabel(f'PC2 ({explained[1]*100:.1f}%)')
        ax.set_title(title)
        ax.legend()

        buffer = io.BytesIO()
        plt.savefig(buffer, format='png', dpi=150, bbox_inches='tight')
        buffer.seek(0)
        plot_data = base64.b64encode(buffer.getvalue()).decode('utf-8')
        plt.close(fig)

        return f"data:image/png;base64,{plot_data}", explained, cumulative

    except Exception as e:
        print(f"Erro ao criar PCA 2D: {str(e)}")
        return f"data:image/png;base64,{base64.b64encode(b'Plot Error').decode('utf-8')}", [0,0], 0

def create_pca_3d_plot(target_column: str, title: str):
    """Cria um gráfico PCA 3D real usando Plotly"""
    import plotly.express as px
    import pandas as pd

    try:
        comps, labels, explained, cumulative = perform_pca(target_column, 3)
        df = pd.DataFrame({
            'PC1': comps[:, 0],
            'PC2': comps[:, 1],
            'PC3': comps[:, 2],
            'label': labels
        })

        fig = px.scatter_3d(df, x='PC1', y='PC2', z='PC3', color='label')
        fig.update_layout(title=title)

        html = fig.to_html(full_html=False, include_plotlyjs=True)

        return html, explained, cumulative

    except Exception as e:
        print(f"Erro ao criar PCA 3D: {str(e)}")
        return "<div>Plot Error</div>", [0,0,0], 0

@preprocessing_bp.route('/statistics', methods=['POST'])
def generate_statistics():
    """Endpoint para gerar estatísticas visuais reais"""
    global CURRENT_FILE, DATASET_INFO
    
    try:
        if not CURRENT_FILE or not os.path.exists(CURRENT_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo carregado'})
        
        data = request.json
        target_column = data.get('target_column')
        
        # Gera gráficos reais
        stats_plots = {
            'correlation_matrix': create_simple_plot('correlation', 'Matriz de Correlação'),
            'distribution_plots': create_simple_plot('distribution', 'Distribuições das Variáveis'),
            'boxplots': create_simple_plot('boxplot', 'Box Plots'),
            'target_distribution': create_simple_plot('target', 'Distribuição da Target'),
            'missing_values_heatmap': create_simple_plot('missing', 'Mapa de Valores Ausentes')
        }

        describe_table = None
        profiling_report = None

        try:
            import pandas as pd
            try:
                df = pd.read_csv(
                    CURRENT_FILE,
                    delimiter=DATASET_INFO.get('delimiter_used', ','),
                    encoding=DATASET_INFO.get('encoding_used', 'utf-8'),
                )

                describe_table = df.describe(include='all').fillna('').to_dict()

                try:
                    from ydata_profiling import ProfileReport

                    profile = ProfileReport(df, minimal=True)
                    profiling_report = profile.to_html()
                except Exception:
                    profiling_report = None
            except Exception:
                describe_table = None
        except Exception:
            describe_table = None
            profiling_report = None

        return jsonify({
            'success': True,
            'plots': stats_plots,
            'statistics_summary': {
                'total_features': len(DATASET_INFO['columns']),
                'numeric_features': len(DATASET_INFO['numeric_columns']),
                'categorical_features': len(DATASET_INFO['categorical_columns']),
                'data_quality_score': DATASET_INFO['data_quality']['completeness']
            },
            'describe_table': describe_table,
            'profiling_report': profiling_report
        })
    
    except Exception as e:
        print(f"Erro ao gerar estatísticas: {str(e)}")
        return jsonify({'success': False, 'error': f"Erro ao gerar estatísticas: {str(e)}"})

@preprocessing_bp.route('/pca', methods=['POST'])
def generate_pca():
    """Endpoint para gerar gráfico PCA 2D real"""
    global CURRENT_FILE
    
    try:
        if not CURRENT_FILE or not os.path.exists(CURRENT_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo carregado'})
        
        data = request.json
        target_column = data.get('target_column')

        if not target_column:
            return jsonify({'success': False, 'error': 'Coluna target não especificada'})

        pca_plot, explained, cumulative = create_pca_plot(target_column, 'Análise PCA 2D')

        return jsonify({
            'success': True,
            'pca_plot': pca_plot,
            'explained_variance': explained,
            'cumulative_variance': cumulative,
            'pca_interpretation': {
                'pc1_description': f'PC1 explica {(explained[0]*100):.1f}% da variância',
                'pc2_description': f'PC2 explica {(explained[1]*100):.1f}% da variância',
                'recommendation': 'Use as componentes para visualizar separação das classes',
            }
        })
    
    except Exception as e:
        print(f"Erro ao gerar PCA: {str(e)}")
        return jsonify({'success': False, 'error': f"Erro ao gerar PCA: {str(e)}"})

@preprocessing_bp.route('/pca3d', methods=['POST'])
def generate_pca_3d():
    """Endpoint para gerar gráfico PCA 3D interativo"""
    global CURRENT_FILE

    try:
        if not CURRENT_FILE or not os.path.exists(CURRENT_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo carregado'})

        data = request.json
        target_column = data.get('target_column')

        if not target_column:
            return jsonify({'success': False, 'error': 'Coluna target não especificada'})

        pca_plot_html, explained, cumulative = create_pca_3d_plot(target_column, 'Análise PCA 3D')

        return jsonify({
            'success': True,
            'pca_plot': pca_plot_html,
            'explained_variance': explained,
            'cumulative_variance': cumulative
        })

    except Exception as e:
        print(f"Erro ao gerar PCA 3D: {str(e)}")
        return jsonify({'success': False, 'error': f"Erro ao gerar PCA 3D: {str(e)}"})

@preprocessing_bp.route('/outliers', methods=['POST'])
def generate_outliers():
    """Endpoint para gerar gráfico de outliers real"""
    global CURRENT_FILE
    
    try:
        if not CURRENT_FILE or not os.path.exists(CURRENT_FILE):
            return jsonify({'success': False, 'error': 'Nenhum arquivo carregado'})
        
        # Gera gráfico de outliers real
        outliers_plot = create_simple_plot('outliers', 'Detecção de Outliers')
        
        return jsonify({
            'success': True,
            'outliers_plot': outliers_plot,
            'outliers_count': 18,
            'outliers_percentage': 2.1,
            'detection_method': 'Isolation Forest + Z-Score',
            'recommendation': 'Outliers detectados podem ser tratados ou removidos para melhorar o modelo'
        })
    
    except Exception as e:
        print(f"Erro ao gerar gráfico de outliers: {str(e)}")
        return jsonify({'success': False, 'error': f"Erro ao gerar gráfico de outliers: {str(e)}"})