import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC


# smote와 ctgan을 이용한 oversampling 진행

# 파일 경로와 지역 이름 리스트
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
input_paths = [f'../data/data_for_modeling/{region}_train.csv' for region in regions]


# 반복적으로 각 지역 데이터 처리
for region, input_path in zip(regions, input_paths):
    # 데이터 읽기
    data = pd.read_csv(input_path, index_col=0)
    data.drop(['Unnamed: 0'], axis=1, inplace=True)
    print("\n######",region,"#######")
    print(len(data[data['multi_class']==0]),'|',len(data[data['multi_class']==1]),'|',len(data[data['multi_class']==2]))
    print(len(data.columns))


import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC

# 파일 경로와 지역 이름 리스트
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
input_paths = [f'../data/data_for_modeling/{region}_train.csv' for region in regions]
output_paths = [f'../data/data_oversampled/smote_{region}.csv' for region in regions]

# 반복적으로 각 지역 데이터 처리
for region, input_path, output_path in zip(regions, input_paths, output_paths):
    # 데이터 읽기
    data = pd.read_csv(input_path, index_col=0)
    data.drop(['Unnamed: 0'], axis=1, inplace=True)

    # X와 y 분리
    X = data.drop(columns=['multi_class', 'binary_class'])
    y = data['multi_class']

    # 불필요한 열 제거
    X.drop(columns=['ground_temp - temp_C', 'hour_sin', 'hour_cos', 'month_sin', 'month_cos'], inplace=True)

    # 범주형 변수 식별
    categorical_features = [i for i, dtype in enumerate(X.dtypes) if dtype != 'float64']

    # 각 지역의 multi_class 값이 2인 데이터 개수 계산
    count_class_2 = (y == 2).sum()

    # SMOTENC 적용
    smotenc = SMOTENC(
        categorical_features=categorical_features,
        sampling_strategy={0: 10000, 1: 10000, 2: count_class_2},
        random_state=42
    )
    X_resampled, y_resampled = smotenc.fit_resample(X, y)

    # 추가 변수 생성
    X_resampled['multi_class'] = y_resampled
    X_resampled['binary_class'] = X_resampled['multi_class'].apply(lambda x: 0 if x == 2 else 1)
    X_resampled['hour_sin'] = np.sin(2 * np.pi * X_resampled['hour'] / 24)
    X_resampled['hour_cos'] = np.cos(2 * np.pi * X_resampled['hour'] / 24)
    X_resampled['month_sin'] = np.sin(2 * np.pi * X_resampled['month'] / 12)
    X_resampled['month_cos'] = np.cos(2 * np.pi * X_resampled['month'] / 12)
    X_resampled['ground_temp - temp_C'] = X_resampled['groundtemp'] - X_resampled['temp_C']

    # 결과 저장
    X_resampled.to_csv(output_path)
    print(f"Processed and saved: {region} -> {output_path}")


smote_seoul = pd.read_csv('../data/data_oversampled/smote_seoul.csv')
print(smote_seoul[smote_seoul['multi_class']==0]['visi'].describe())
print(smote_seoul[smote_seoul['multi_class']==1]['visi'].describe())


import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC

# 파일 경로와 지역 이름 리스트
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
input_paths = [f'../data/data_oversampled/smote_{region}.csv' for region in regions]

# 반복적으로 각 지역 데이터 처리
for region, input_path in zip(regions, input_paths):
    # 데이터 읽기
    data = pd.read_csv(input_path, index_col=0)
    data.drop(['Unnamed: 0'], axis=1, inplace=True)
    print("\n######",region,"#######")
    print(len(data[data['multi_class']==0]),'|',len(data[data['multi_class']==1]),'|',len(data[data['multi_class']==2]))
    print(len(data.columns))


import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC

# 파일 경로와 지역 이름 리스트
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
input_paths = [f'../data/data_for_modeling/{region}_train.csv' for region in regions]

# 반복적으로 각 지역 데이터 처리
for region, input_path in zip(regions, input_paths):
    # 데이터 읽기
    data = pd.read_csv(input_path, index_col=0)
    data.drop(['Unnamed: 0'], axis=1, inplace=True)
    print("\n######",region,"#######")
    print(len(data[data['multi_class']==0]),'|',len(data[data['multi_class']==1]),'|',len(data[data['multi_class']==2]))
    print(len(data.columns))


import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC
import optuna
from ctgan import CTGAN
import torch
import warnings

# 지역별 데이터 파일 경로
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
file_paths = [f'../data/data_for_modeling/df_{region}.feather' for region in regions]
output_paths = [f'../data/data_oversampled/ctgan_{region}.csv' for region in regions]

# GPU 사용 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# 경고 무시
warnings.filterwarnings("ignore", category=UserWarning, module="optuna.distributions")

# 지역별 처리
for file_path, output_path in zip(file_paths, output_paths):
    # 데이터 로드
    data = pd.read_feather(file_path)
    data.drop(['Unnamed: 0'], axis=1, inplace=True)
    X = data.drop(columns=['multi_class', 'binary_class'])
    y = data['multi_class']

    # 불필요한 열 제거
    X.drop(columns=['ground_temp - temp_C', 'hour_sin', 'hour_cos', 'month_sin', 'month_cos'], inplace=True)

    # SMOTENC에서 사용할 범주형 변수 열 번호 설정
    categorical_features_indices = [i for i, dtype in enumerate(X.dtypes) if dtype != 'float64']

    # sampling_strategy 설정
    count_class_0 = (y == 0).sum()
    count_class_1 = (y == 1).sum()
    count_class_2 = (y == 2).sum()
    sampling_strategy = {
        0: 500 if count_class_0 <= 500 else 1000,
        1: int(np.ceil(count_class_1 / 100) * 100),  # 백의 자리로 올림
        2: count_class_2
    }

    # SMOTENC 적용
    smotenc = SMOTENC(categorical_features=categorical_features_indices, sampling_strategy=sampling_strategy, random_state=42)
    X_resampled, y_resampled = smotenc.fit_resample(X, y)

    # Resampled 데이터 생성
    lerp_data = X_resampled.copy()
    lerp_data['multi_class'] = y_resampled

    # CTGAN에서 사용할 범주형 변수 열 이름 설정
    categorical_features = [
        col for col, dtype in zip(lerp_data.columns, lerp_data.dtypes) if dtype != 'float64'
    ]

    # Optuna 목적 함수 정의
    def objective(trial):
        # 하이퍼파라미터 탐색 범위 설정
        embedding_dim = trial.suggest_int("embedding_dim", 64, 128)
        generator_dim = trial.suggest_categorical("generator_dim", [(64, 64), (128, 128)])
        discriminator_dim = trial.suggest_categorical("discriminator_dim", [(64, 64), (128, 128)])
        pac = trial.suggest_categorical("pac", [4, 8])
        batch_size = trial.suggest_categorical("batch_size", [64, 128, 256])
        discriminator_steps = trial.suggest_int("discriminator_steps", 1, 3)

        # CTGAN 모델 생성
        ctgan = CTGAN(
            embedding_dim=embedding_dim,
            generator_dim=generator_dim,
            discriminator_dim=discriminator_dim,
            batch_size=batch_size,
            discriminator_steps=discriminator_steps,
            pac=pac
        )

        # 범주 0 데이터 필터링
        data_0 = lerp_data[lerp_data['multi_class'] == 0]

        # 모델 학습
        ctgan.fit(data_0, discrete_columns=categorical_features)

        # 샘플 생성
        generated_data = ctgan.sample(len(data_0) * 2)

        # 평가: 샘플의 연속형 변수 분포 비교
        real_visi = data_0['visi']
        generated_visi = generated_data['visi']

        # 분포 간 차이(MSE) 계산
        mse = ((real_visi.mean() - generated_visi.mean())**2 + (real_visi.std() - generated_visi.std())**2)
        return -mse

    # Optuna로 최적화 수행
    study = optuna.create_study(direction="maximize")
    study.optimize(objective, n_trials=50)

    # 최적 하이퍼파라미터 출력
    best_params = study.best_params

    # 최적 하이퍼파라미터로 CTGAN 학습 및 샘플 생성
    ctgan = CTGAN(
        embedding_dim=best_params["embedding_dim"],
        generator_dim=best_params["generator_dim"],
        discriminator_dim=best_params["discriminator_dim"],
        batch_size=best_params["batch_size"],
        discriminator_steps=best_params["discriminator_steps"],
        pac=best_params["pac"]
    )

    # 범주 0 데이터로 최종 학습
    ctgan.fit(lerp_data[lerp_data['multi_class'] == 0], discrete_columns=categorical_features)
    generated_0 = ctgan.sample(19500 if count_class_0 <= 500 else 19000)

    # 범주 1 데이터 최적화 및 생성
    def objective_class1(trial):
        embedding_dim = trial.suggest_int("embedding_dim", 128, 512)
        generator_dim = trial.suggest_categorical("generator_dim", [(128, 128), (256, 256)])
        discriminator_dim = trial.suggest_categorical("discriminator_dim", [(128, 128), (256, 256)])
        pac = trial.suggest_categorical("pac", [4, 8])
        batch_size = trial.suggest_categorical("batch_size", [256, 512, 1024])
        discriminator_steps = trial.suggest_int("discriminator_steps", 1, 5)

        ctgan = CTGAN(
            embedding_dim=embedding_dim,
            generator_dim=generator_dim,
            discriminator_dim=discriminator_dim,
            batch_size=batch_size,
            discriminator_steps=discriminator_steps,
            pac=pac
        )

        data_1 = lerp_data[lerp_data['multi_class'] == 1]
        ctgan.fit(data_1, discrete_columns=categorical_features)
        generated_data = ctgan.sample(len(data_1) * 2)

        real_visi = data_1['visi']
        generated_visi = generated_data['visi']
        mse = ((real_visi.mean() - generated_visi.mean())**2 + (real_visi.std() - generated_visi.std())**2)
        return -mse

    study_class1 = optuna.create_study(direction="maximize")
    study_class1.optimize(objective_class1, n_trials=30)

    best_params_class1 = study_class1.best_params
    ctgan = CTGAN(
        embedding_dim=best_params_class1["embedding_dim"],
        generator_dim=best_params_class1["generator_dim"],
        discriminator_dim=best_params_class1["discriminator_dim"],
        batch_size=best_params_class1["batch_size"],
        discriminator_steps=best_params_class1["discriminator_steps"],
        pac=best_params_class1["pac"]
    )

    ctgan.fit(lerp_data[lerp_data['multi_class'] == 1], discrete_columns=categorical_features)
    generated_1 = ctgan.sample(20000 - int(np.ceil(count_class_1 / 100) * 100))

    # 데이터 병합 및 저장
    well_generated0 = generated_0[(generated_0['visi'] >= 0) & (generated_0['visi'] < 100)]
    well_generated1 = generated_1[(generated_1['visi'] >= 100) & (generated_1['visi'] < 500)]
    smote_gan_data = pd.concat([lerp_data, well_generated0, well_generated1], axis=0)
        # 제거변수 복구
    smote_gan_data['binary_class'] = smote_gan_data['multi_class'].apply(lambda x: 0 if x == 2 else 1)
    smote_gan_data['hour_sin'] = np.sin(2 * np.pi * smote_gan_data['hour'] / 24)
    smote_gan_data['hour_cos'] = np.cos(2 * np.pi * smote_gan_data['hour'] / 24)
    smote_gan_data['month_sin'] = np.sin(2 * np.pi * smote_gan_data['month'] / 12)
    smote_gan_data['month_cos'] = np.cos(2 * np.pi * smote_gan_data['month'] / 12)
    smote_gan_data['ground_temp - temp_C'] = smote_gan_data['groundtemp'] - smote_gan_data['temp_C']

    # 결과 저장
    smote_gan_data.to_csv(output_path, index = False)
    print(f"Processed and saved: {region} -> {output_path}")


import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC

# 파일 경로와 지역 이름 리스트
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
input_paths = [f'../data/data_oversampled/ctgan_{region}.csv' for region in regions]

# 반복적으로 각 지역 데이터 처리
for region, input_path in zip(regions, input_paths):
    # 데이터 읽기
    data = pd.read_csv(input_path)
    print("\n######",region,"#######")
    print(len(data[data['multi_class']==0]),'|',len(data[data['multi_class']==1]),'|',len(data[data['multi_class']==2]))
    print(len(data.columns))


busan_check = pd.read_csv('../data/data_oversampled/ctgan_busan.csv')
print(busan_check[busan_check['multi_class']==0]['visi'].describe())
print(busan_check[busan_check['multi_class']==1]['visi'].describe())
print(busan_check[busan_check['multi_class']==2]['visi'].describe())


import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTENC

# 파일 경로와 지역 이름 리스트
regions = ['busan', 'daegu', 'daejeon', 'incheon', 'seoul','gwangju']
origin_paths = [f'../data/data_for_modeling/{region}_train.csv' for region in regions]
augment_paths = [f'../data/data_oversampled/ctgan_{region}.csv' for region in regions]

# 반복적으로 각 지역 데이터 처리
for region, origin_path, augment_path in zip(regions, origin_paths, augment_paths):
    # 데이터 읽기
    origin = pd.read_csv(origin_path, index_col=0)
    augment = pd.read_csv(augment_path)

    # 증강된 데이터에서 범주 2 데이터 제거
    filtered_data = augment[augment['multi_class'] != 2]

    # 원본 데이터에서 범주 2 데이터 추출
    original_class2 = origin[origin['multi_class'] == 2]

    # 제거된 데이터에 원본 범주 2 데이터를 추가
    final_data = pd.concat([filtered_data, original_class2], axis=0)

    # 인덱스 재설정
    final_data.reset_index(drop=True, inplace=True)

    # 결과 저장
    final_data.to_csv(augment_path, index = False)

    print("\n######",region,"#######")
    print(len(final_data[final_data['multi_class']==0]),'|',len(final_data[final_data['multi_class']==1]),'|',len(final_data[final_data['multi_class']==2]))
    print(len(data.columns))