Spaces:

betterdataai
/

IRG

Running

File size: 41,719 Bytes

c4ac745

import hashlib
import json
import os
import shutil
from collections import defaultdict
from typing import Any, Dict, List, Optional, Sequence, Tuple, Union
from typing_extensions import Self

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import OrdinalEncoder, StandardScaler

from .utils import load_from, log_resource_usage, save_to


class ForeignKey:
    def __init__(self,
                 child_table_name: str,
                 parent_table_name: str,
                 child_column_names: Union[str, Sequence[str]],
                 parent_column_names: Optional[Union[str, Sequence[str]]] = None,
                 unique: bool = False,
                 total_participate: bool = False):
        self.child_table_name = child_table_name
        self.parent_table_name = parent_table_name
        self.child_column_names = child_column_names if not isinstance(child_column_names, str) else [
            child_column_names]
        if parent_column_names is None:
            parent_column_names = self.child_column_names
        self.parent_column_names = parent_column_names if \
            not isinstance(parent_column_names, str) else [parent_column_names]
        self.unique = unique
        self.total_participate = total_participate

    def __eq__(self, other: Any) -> bool:
        if not isinstance(other, ForeignKey):
            return False
        for k in ["child_table_name", "parent_table_name", "child_column_names"]:
            if getattr(self, k) != getattr(other, k):
                return False
        return True


class TableConfig:
    def __init__(self,
                 name: str,
                 primary_key: Optional[Union[str, Sequence[str]]] = None,
                 foreign_keys: Optional[Sequence[ForeignKey]] = None,
                 sortby: Optional[str] = None,
                 id_columns: Optional[Sequence[str]] = None,
                 inequality: Optional[Union[Tuple[str, str], Tuple[Tuple[str, ...], Tuple[str, ...]]]] = None):
        self.name = name
        self.primary_key = primary_key if not isinstance(primary_key, str) else [primary_key]
        self.foreign_keys = foreign_keys if foreign_keys is not None else []
        self.sortby = sortby
        self.id_columns = id_columns if id_columns is not None else []
        self.inequality = [
            ([a], [b]) if isinstance(a, str) else (a, b) for a, b in inequality
        ] if inequality is not None else []

    @classmethod
    def from_dict(cls, data: Dict[str, Any]) -> Self:
        foreign_keys = data.get("foreign_keys", [])
        foreign_keys = [ForeignKey(**x, child_table_name=data["name"]) for x in foreign_keys]
        data = data.copy()
        data["foreign_keys"] = foreign_keys
        return cls(**data)


class TableTransformer:
    def __init__(self, config: TableConfig):
        self.config = config
        self.columns = []
        self.categorical_columns = []
        self.numeric_columns = []
        self.agg_columns = None
        self.top_cat_values = {}
        self.agg_transformer = StandardScaler() if self.config.foreign_keys else None
        self.cat_transformer = OrdinalEncoder()
        self.num_transformer = StandardScaler()
        self.count_null = []
        self.split_dim = 0

    def fit(self, table: pd.DataFrame):
        for c in self.config.id_columns:
            if table[c].isna().any():
                self.count_null.append(c)
        self.columns = table.columns
        numeric_columns = table.select_dtypes(include=np.number).columns
        categorical_columns = table.drop(columns=numeric_columns.tolist()).columns
        self.categorical_columns = [
            c for c in categorical_columns if c not in self.config.id_columns
        ]
        self.numeric_columns = [
            c for c in numeric_columns if c not in self.config.id_columns
        ]
        for c in self.categorical_columns:
            self.top_cat_values[c] = table[c].value_counts().iloc[:3].values.tolist()
        if self.config.foreign_keys:
            aggregated, table = self.aggregate(table)
            aggregated = aggregated.bfill().ffill()
            self.agg_columns = aggregated.columns
            if aggregated.shape[-1] > 0:
                self.agg_transformer.fit(aggregated.values)
        table = table.bfill().ffill()
        if self.categorical_columns:
            cat = self.cat_transformer.fit_transform(table[self.categorical_columns].values)
            self.split_dim = cat.shape[1]
        else:
            self.split_dim = 0
        if self.numeric_columns:
            self.num_transformer.fit(table[self.numeric_columns].values)

    def aggregate(self, table: pd.DataFrame) -> Tuple[pd.DataFrame, pd.DataFrame]:
        if not self.config.foreign_keys:
            raise RuntimeError(f"Table {self.config.name} has no FK, so aggregate is not a valid operation.")
        groupby_columns = self.config.foreign_keys[0].child_column_names
        groupby = table.groupby(groupby_columns)
        if self.config.sortby:
            first_sortby: pd.Series = groupby[self.config.sortby].head(1)
            first_sortby.index = pd.MultiIndex.from_frame(
                table.loc[first_sortby.index, groupby_columns]
            )
            sorby_diff: pd.Series = groupby[self.config.sortby].diff()
            sorby_diff = sorby_diff.fillna(sorby_diff.mean())
            table = pd.concat([
                table.drop(columns=[self.config.sortby]),
                sorby_diff.to_frame(self.config.sortby)
            ], axis=1)[table.columns]
            groupby = table.groupby(groupby_columns)
            out = self._aggregate_values(groupby)
            out = pd.concat([
                out, pd.concat({self.config.sortby: first_sortby.to_frame("first")}, axis=1)
            ], axis=1)
        else:
            out = self._aggregate_values(groupby)
        out.columns = pd.Index([f"{a}${b}" for a, b in out.columns])
        return out, table

    def _aggregate_values(self, groupby):
        if self.numeric_columns:
            num_groupby = groupby[self.numeric_columns]
            out = num_groupby.aggregate(["mean", "median", "std"]).fillna(0)
        else:
            out = pd.concat({"": groupby.size().to_frame()[[]]}, axis=1)
        if len(self.categorical_columns) > 0:
            cat_groupby = groupby[self.categorical_columns]
            out = pd.concat([out, self._aggregate_categorical(cat_groupby)], axis=1)
        if len(self.count_null) > 0:
            null_groupby = groupby[self.count_null].aggregate(lambda group: group.isna().mean())
            null_groupby = pd.concat({"null-ratio": null_groupby}, axis=1).swaplevel(0, 1, axis=1)
            out = pd.concat([out, null_groupby], axis=1)
        if out.index.nlevels <= 1:
            out.index = pd.MultiIndex.from_arrays([out.index], names=[out.index.name])
        return out

    def _aggregate_categorical(self, grouped: pd.core.groupby.generic.DataFrameGroupBy) -> pd.DataFrame:
        df = grouped.obj
        group_keys = grouped.grouper.names
        results = {}
        sizes = grouped.size()
        for col, values in self.top_cat_values.items():
            ctab = pd.crosstab(index=[df[k] for k in group_keys], columns=df[col])
            ctab = ctab.reindex(columns=values, fill_value=0)
            ctab_ratio = ctab / sizes.loc[ctab.index].values.reshape((-1, 1))
            results[col] = ctab_ratio
        final = pd.concat(results, axis=1)
        return final

    def transform(self, table: pd.DataFrame) -> Tuple[
        np.ndarray, Optional[Dict[Tuple, np.ndarray]], Optional[np.ndarray], Optional[pd.Index]
    ]:
        table = table.reset_index(drop=True)
        if self.config.foreign_keys:
            groups = table.groupby(self.config.foreign_keys[0].child_column_names).groups
            groups = {
                k: v.values for k, v in groups.items()
            }
            aggregated, table = self.aggregate(table)
            if aggregated.index.nlevels <= 1:
                groups = {(k,): v for k, v in groups.items()}
            agg_index = aggregated.index
            if aggregated.shape[-1] > 0:
                aggregated = self.agg_transformer.transform(aggregated.values)
            else:
                aggregated = aggregated.values
        else:
            groups = None
            agg_index = None
            aggregated = None
        if self.categorical_columns:
            cat = self.cat_transformer.transform(
                table[self.categorical_columns].values
            ) / np.array([len(x) for x in self.cat_transformer.categories_]).reshape((1, -1))
        else:
            cat = np.zeros((table.shape[0], 0))
        if self.numeric_columns:
            num = self.num_transformer.transform(table[self.numeric_columns].values)
        else:
            num = np.zeros((table.shape[0], 0))
        transformed = np.concatenate([cat, num], axis=1)
        return transformed, groups, aggregated, agg_index

    def inverse_transform(self, transformed: np.ndarray, groups: Optional[Dict[Tuple, np.ndarray]] = None,
                          aggregated: Optional[np.ndarray] = None, agg_index: Optional[pd.Index] = None
                          ) -> pd.DataFrame:
        if self.categorical_columns:
            cat = transformed[:, :self.split_dim]
            cat = np.clip(cat, 0, np.array([x.shape[0] for x in self.cat_transformer.categories_]) - 1).round()
            cat = self.cat_transformer.inverse_transform(cat)
            cat = pd.DataFrame(cat, columns=self.categorical_columns)
        else:
            cat = pd.DataFrame(index=np.arange(transformed.shape[0]), columns=[])
        if self.numeric_columns:
            num = self.num_transformer.inverse_transform(transformed[:, self.split_dim:])
            num = pd.DataFrame(num, columns=self.numeric_columns)
        else:
            num = pd.DataFrame(index=np.arange(transformed.shape[0]), columns=[])
        table = pd.concat([cat, num], axis=1)
        for c in self.config.id_columns:
            table[c] = np.arange(table.shape[0])
        table = table[self.columns]

        if self.config.foreign_keys:
            groupby_columns = self.config.foreign_keys[0].child_column_names
            for vals, idx in groups.items():
                table.loc[idx, groupby_columns] = pd.Series(
                    {c: v for c, v in zip(groupby_columns, vals)}
                ).to_frame().T.loc[[0] * idx.shape[0]].set_axis(idx, axis=0)
            if self.config.sortby:
                aggregated = self.agg_transformer.inverse_transform(aggregated)
                aggregated = pd.DataFrame(aggregated, index=agg_index, columns=self.agg_columns)
                first_sortby = aggregated[f"{self.config.sortby}$first"]
                head = table.groupby(groupby_columns)[groupby_columns].head(1)
                agg_idx_to_table_idx = {
                    tuple(row[groupby_columns]): i for i, row in head.iterrows()
                }
                first_sortby.index = [agg_idx_to_table_idx[x] for x in first_sortby.index]
                table.loc[head.index, self.config.sortby] = first_sortby
                table[self.config.sortby] = table.groupby(groupby_columns)[self.config.sortby].cumsum()
        return table

    @classmethod
    def load(cls, path: str) -> Self:
        return load_from(path)

    def save(self, path: str):
        save_to(self, path)


class RelationalTransformer:
    def __init__(self,
                 tables: Dict[str, TableConfig],
                 order: List[str],
                 max_ctx_dim: int = 100):
        self.order = order
        self.transformers = {}
        self.children: Dict[str, List[ForeignKey]] = defaultdict(list)
        for tn in order:
            config = tables[tn]
            self.transformers[tn] = TableTransformer(config)
            for fk in config.foreign_keys:
                self.children[fk.parent_table_name].append(fk)
        self.max_ctx_dim = max_ctx_dim
        self._fitted_cache_dir = None
        self._sizes_of = {}
        self._nullable = {}
        self._parent_dims = {}
        self._core_dims = {}

    def fit(self, tables: Dict[str, str], cache_dir: str = "./cache", resource_path: str = "./cache/resource.csv"):
        self._fitted_cache_dir = cache_dir
        os.makedirs(cache_dir, exist_ok=True)
        for tn in self.order:
            table = pd.read_csv(tables[tn])
            self._sizes_of[tn] = table.shape[0]
            table.to_csv(os.path.join(cache_dir, f"{tn}.csv"), index=False)
            with log_resource_usage(resource_path, f"fit table {tn} transformer"):
                transformer = self.transformers[tn]
                if len(set(table.columns)) != len(table.columns):
                    raise ValueError(f"Same column name repeated in one table ({tn}).")
                transformer.fit(table)
                transformer.save(os.path.join(cache_dir, f"{tn}-transformer.pkl"))

            foreign_keys = self.transformers[tn].config.foreign_keys
            if foreign_keys:
                self._nullable[tn] = []
                with log_resource_usage(resource_path, f"transform {tn} FK"):
                    encoded, groups, aggregated, agg_index = transformer.transform(table)
                    save_to({
                        "actual": (None, None, encoded, None)
                    }, os.path.join(cache_dir, f"{tn}.pkl"))
                with log_resource_usage(resource_path, f"extend {tn}"):
                    key, context, new_encoded = self._extend_till(tn, tn, table.columns.tolist(), cache_dir)
                float_cols = [
                    c for c in key.select_dtypes(include="float").columns
                    if c not in self.transformers[tn].config.id_columns
                ]
                if np.abs(encoded - new_encoded[:, self._core_dims[tn]]).mean() > 1e-5 or not (
                        key.equals(table) or ((len(float_cols) == 0 or
                                               (key[float_cols] - table[float_cols]).abs().values.mean() <= 1e-5)
                                              and key.drop(columns=float_cols).equals(table.drop(columns=float_cols)))
                ):
                    raise RuntimeError(
                        f"Error when extending: {np.abs(encoded - new_encoded[:, self._core_dims[tn]]).mean()}, "
                        f"{key.equals(table)}, {len(float_cols)}, "
                        f"{(key[float_cols] - table[float_cols]).abs().values.mean()}, "
                        f"{key.drop(columns=float_cols).equals(table.drop(columns=float_cols))}."
                    )

                agg_context = np.zeros((aggregated.shape[0], 0))
                actual_context = np.zeros((aggregated.shape[0], 0))
                transformed_context = np.zeros((encoded.shape[0], 0))
                length = np.zeros(aggregated.shape[0])
                all_fk_info = []
                for fi, fk in enumerate(foreign_keys):
                    fk_info = {}
                    with log_resource_usage(
                            resource_path, f"get degrees {tn}.({'|'.join(fk.child_column_names)})[{fi}]"
                    ):
                        parent_key, parent_context, parent_encoded = self._extend_till(
                            fk.parent_table_name, tn, fk.parent_column_names, cache_dir, fitting=False, queue=[fk]
                        )
                        degree_x = np.concatenate([parent_context, parent_encoded], axis=1)
                        degree_y = table[fk.child_column_names].groupby(fk.child_column_names).size()
                        if degree_y.index.nlevels <= 1:
                            degree_y.index = pd.MultiIndex.from_arrays([degree_y.index], names=[degree_y.index.name])
                        if fi == 0:
                            raw_degree = degree_y[agg_index]
                        else:
                            raw_degree = None
                        parent_key_as_child = parent_key.rename(columns={
                            p: c for p, c in zip(fk.parent_column_names, fk.child_column_names)
                        })
                        y_order = pd.MultiIndex.from_frame(parent_key_as_child)
                        placeholder_degree_y = pd.Series(0, index=y_order)
                        placeholder_degree_y.loc[degree_y.index] = degree_y
                        degree_y = placeholder_degree_y.values
                    if fi == 0:
                        with log_resource_usage(resource_path, f"get context {tn}"):
                            non_zero_degree_x = pd.DataFrame(
                                degree_x, columns=[f"_dim{i:02d}" for i in range(degree_x.shape[-1])],
                                index=parent_key.index
                            )
                            non_zero_degree_x = pd.concat([parent_key_as_child, non_zero_degree_x], axis=1)
                            agg_context = agg_index.to_frame().reset_index(drop=True)
                            agg_context = agg_context.merge(
                                non_zero_degree_x, how="left", on=agg_index.names
                            )
                            agg_context = agg_context.set_index(agg_index.names)
                            if agg_context.index.nlevels <= 1:
                                agg_context.index = pd.MultiIndex.from_arrays(
                                    [agg_context.index], names=agg_index.names
                                )
                            length = raw_degree.values

                            agg_context = agg_context.loc[agg_index].values
                            actual_context = np.concatenate([agg_context, aggregated], axis=1)
                            actual_context = pd.DataFrame(actual_context, index=agg_index)
                            transformed_context = np.empty((encoded.shape[0], actual_context.shape[-1]))
                            for g, idx in groups.items():
                                transformed_context[idx] = actual_context.loc[g]
                            actual_context = actual_context.values
                    fk_info["degree"] = degree_x, degree_y

                    if table[fk.child_column_names].isna().any().any():
                        with log_resource_usage(
                                resource_path, f"get isna {tn}.({'|'.join(fk.child_column_names)})[{fi}]"
                        ):
                            isna_y = table[fk.child_column_names].isna().any(axis=1)
                            fk_info["isna"] = np.concatenate([transformed_context, new_encoded], axis=1), isna_y.values
                        self._nullable[tn].append(True)
                    else:
                        self._nullable[tn].append(False)
                    all_fk_info.append(fk_info)

                out = {
                    "aggregated": (agg_context, aggregated),
                    "actual": (
                        actual_context, length, new_encoded,
                        [groups[tuple(x) if isinstance(x, tuple) else (x,)] for x in agg_index]
                    ),
                    "foreign_keys": all_fk_info,
                }
            else:
                encoded, _, _, _ = transformer.transform(table)
                out = {
                    "encoded": encoded
                }
            save_to(out, os.path.join(cache_dir, f"{tn}.pkl"))

    def _extend_till(self, table: str, till: str, keys: Sequence[str], cache_dir: str,
                     fitting: bool = True, queue: List[ForeignKey] = []) -> Tuple[pd.DataFrame, np.ndarray, np.ndarray]:
        allowed_tables = self.order[:self.order.index(till)]
        raw = pd.read_csv(os.path.join(cache_dir, f"{table}.csv"))
        if self.transformers[table].config.foreign_keys:
            _, _, encoded, _ = self.actual_generation_for(table, cache_dir)
        else:
            encoded = self.standalone_encoded_for(table, cache_dir)
        core_columns = [f"_dim{i:02d}" for i in range(encoded.shape[-1])]
        core = pd.DataFrame(encoded, columns=core_columns, index=raw.index)
        core = pd.concat([raw.index.to_frame(False, "_id"), raw, core], axis=1)
        for fi, fk in enumerate(self.transformers[table].config.foreign_keys):
            if fk in queue:
                continue
            parent_raw, parent_context, parent_encoded = self._extend_till(
                fk.parent_table_name, till, fk.parent_column_names, cache_dir, fitting, queue + [fk]
            )
            parent_encoded = np.concatenate([parent_context, parent_encoded], axis=1)
            if table == till:
                parent_encoded = self._reduce_dims(
                    parent_encoded, fk.parent_table_name, fitting, queue + [fk], cache_dir, allowed_tables
                )
            parent_encoded = pd.DataFrame(
                parent_encoded, columns=[f"_dim{i:02d}_p{fi}" for i in range(parent_encoded.shape[-1])],
                index=np.arange(parent_encoded.shape[0])
            )
            parent_idx_df = parent_raw[fk.parent_column_names].rename(columns={
                p: c for p, c in zip(fk.parent_column_names, fk.child_column_names)
            })
            parent_encoded = pd.concat([parent_idx_df, parent_encoded], axis=1)
            core = core.merge(parent_encoded, on=fk.child_column_names, how="left").fillna(-1)

        for fi, fk in enumerate(self.children[table]):
            if fk.child_table_name not in allowed_tables or fk in queue:
                continue
            sibling_raw, sibling_context, sibling_encoded = self._extend_till(
                fk.child_table_name, till, fk.child_column_names, cache_dir, fitting, queue + [fk]
            )
            sibling_encoded = np.concatenate([sibling_context, sibling_encoded], axis=1)
            sibling_encoded = self._reduce_dims(
                sibling_encoded, fk.child_table_name, fitting, queue + [fk], cache_dir, allowed_tables
            )
            encoded_columns = [f"_dim{i:02d}_c{fi}" for i in range(sibling_encoded.shape[-1])]
            sibling_encoded = pd.DataFrame(
                sibling_encoded, columns=encoded_columns, index=np.arange(sibling_encoded.shape[0])
            )
            sibling_idx_df = sibling_raw[fk.child_column_names].rename(columns={
                c: p for c, p in zip(fk.child_column_names, fk.parent_column_names)
            })
            sibling_encoded = pd.concat([sibling_idx_df, sibling_encoded], axis=1)
            sibling_encoded_aggregated = sibling_encoded.groupby(fk.parent_column_names).aggregate(["mean", "std"])
            sibling_encoded_aggregated = sibling_encoded_aggregated.reset_index()
            sibling_encoded_aggregated.columns = pd.Index([
                f"{a}${b}" if b else a for a, b in sibling_encoded_aggregated.columns
            ])
            core = core.merge(
                sibling_encoded_aggregated, on=fk.parent_column_names, how="left"
            ).fillna(0)

        core = core.set_index("_id").loc[raw.index]
        raw_keys = raw[keys]
        context_columns = [c for c in core.columns if c.startswith("_dim") and c.endswith("_p0")]
        context = core[context_columns]
        encoded = core.drop(columns=context_columns + raw.columns.tolist())

        if fitting and table == till:
            parent_dims = []
            name_to_id = {
                c: i for i, c in enumerate(encoded.columns)
            }
            for fi in range(0, len(self.transformers[table].config.foreign_keys)):
                parent_dims.append([
                    name_to_id[n] for n in encoded.columns if n.endswith(f"_p{fi}") and n.startswith("_dim")
                ])
            self._parent_dims[table] = parent_dims
            self._core_dims[table] = [name_to_id[n] for n in core_columns]
        if raw_keys.shape[0] != encoded.values.shape[0]:
            raise RuntimeError(f"Extended table shape changed: {raw_keys.shape, raw.shape, encoded.shape}")  # TODO: remove
        return raw_keys, context.values, encoded.values

    def _reduce_dims(self, parent_encoded: np.ndarray, table: str, fitting: bool, queue: List[ForeignKey],
                     cache_dir: str, allowed_tables: List[str]) -> np.ndarray:
        if parent_encoded.shape[-1] > self.max_ctx_dim:
            queue_str = json.dumps([
                f"parent={qfk.parent_table_name}, child={qfk.child_table_name}, "
                f"columns={qfk.child_column_names}" for qfk in queue
            ])
            pca_name = f"{table}_{len(allowed_tables)}_{hashlib.sha1(queue_str.encode()).hexdigest()}"
            os.makedirs(os.path.join(cache_dir, "pca"), exist_ok=True)
            pca_path = os.path.join(cache_dir, "pca", f"{pca_name}.pkl")
            if fitting:
                if os.path.exists(pca_path):
                    raise FileExistsError(f"File for PCA already exists: {table} {allowed_tables[-1]} {queue}.")
                pca = PCA(n_components=self.max_ctx_dim)
                parent_encoded = pca.fit_transform(parent_encoded)
                save_to(pca, pca_path)
            else:
                pca = load_from(pca_path)
                parent_encoded = pca.transform(parent_encoded)
        return parent_encoded

    def fitted_size_of(self, table_name: str) -> int:
        return self._sizes_of[table_name]

    @classmethod
    def standalone_encoded_for(cls, table_name: str, cache_dir: str = "./cache") -> np.ndarray:
        return load_from(os.path.join(cache_dir, f"{table_name}.pkl"))["encoded"]

    @classmethod
    def degree_prediction_for(cls, table_name: str, fk_idx: int, cache_dir: str = "./cache") -> Tuple[
        np.ndarray, Optional[np.ndarray]
    ]:
        return load_from(os.path.join(cache_dir, f"{table_name}.pkl"))["foreign_keys"][fk_idx]["degree"]

    @classmethod
    def isna_indicator_prediction_for(cls, table_name: str, fk_idx: int, cache_dir: str = "./cache") -> Optional[Tuple[
        np.ndarray, Optional[np.ndarray]
    ]]:
        return load_from(os.path.join(cache_dir, f"{table_name}.pkl"))["foreign_keys"][fk_idx].get("isna")

    @classmethod
    def aggregated_generation_for(cls, table_name: str, cache_dir: str = "./cache") -> Tuple[
        np.ndarray, Optional[np.ndarray]
    ]:
        return load_from(os.path.join(cache_dir, f"{table_name}.pkl"))["aggregated"]

    @classmethod
    def actual_generation_for(cls, table_name: str, cache_dir: str = "./cache") -> Tuple[
        np.ndarray, np.ndarray, Optional[np.ndarray], Optional[List[np.ndarray]]
    ]:
        return load_from(os.path.join(cache_dir, f"{table_name}.pkl"))["actual"]

    def fk_matching_for(self, table_name: str, fk_idx: int, sampled_dir: str = "./cache") -> Tuple[
        np.ndarray, np.ndarray, np.ndarray, np.ndarray, List[Optional[np.ndarray]], List[np.ndarray]
    ]:
        loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
        _, _, values, groups = loaded["actual"]
        values = values[:, self._parent_dims[table_name][fk_idx]]
        parent, degrees = loaded["foreign_keys"][fk_idx]["degree"]
        fk = self.transformers[table_name].config.foreign_keys[fk_idx]
        parent = self._reduce_dims(
            parent, fk.parent_table_name,
            False, [fk], self._fitted_cache_dir, self.order[:self.order.index(table_name)]
        )
        if values.shape[-1] != parent.shape[-1]:
            raise RuntimeError(f"The sizes to be matched are different: {values.shape}, {parent.shape}.")
        isnull = loaded["foreign_keys"][fk_idx]["isna"]
        if isnull is None:
            return_isna = np.zeros(values.shape[0], dtype=np.bool_)
        else:
            _, return_isna = isnull

        # collect prev FK values
        key_df = pd.DataFrame(index=pd.RangeIndex(values.shape[0]))
        for i, fk in enumerate(self.transformers[table_name].config.foreign_keys[:fk_idx]):
            parent_match = loaded["foreign_keys"][i]["match"]
            existing_vals = pd.read_csv(
                os.path.join(sampled_dir, f"{fk.parent_table_name}.csv")
            ).rename(
                columns={p: c for p, c in zip(fk.parent_column_names, fk.child_column_names)}
            )[fk.child_column_names]
            isna = np.isnan(parent_match.astype(np.float32))
            if isna.any():
                dummy_idx = existing_vals.shape[0]
                existing_vals.loc[dummy_idx, existing_vals.columns] = np.nan
                existing_vals = existing_vals.iloc[
                    np.where(isna, dummy_idx, parent_match)
                ].reset_index(drop=True)
            else:
                existing_vals = existing_vals.iloc[parent_match].reset_index(drop=True)
            if set(key_df.columns) & set(existing_vals.columns):
                same_cols = [*set(key_df.columns) & set(existing_vals.columns)]
                if key_df[same_cols][~return_isna].equals(
                        existing_vals[same_cols][~return_isna].astype(key_df[same_cols].dtypes)
                ):
                    new_cols = [*set(existing_vals.columns) - set(key_df.columns)]
                    key_df[new_cols] = existing_vals[new_cols]
                else:
                    raise RuntimeError(f"Overlapping FKs in previous FKs invalid ({table_name})[{fk_idx}].")
            else:
                key_df[fk.child_column_names] = existing_vals

        pools = [None] * values.shape[0]
        # overlapping FKs result in limited pools
        curr_fk = self.transformers[table_name].config.foreign_keys[fk_idx]
        prev_fk_cols = set()
        this_parent_raw = pd.read_csv(os.path.join(sampled_dir, f"{curr_fk.parent_table_name}.csv")).rename(
            columns={p: c for p, c in zip(curr_fk.parent_column_names, curr_fk.child_column_names)}
        )
        for i, fk in enumerate(self.transformers[table_name].config.foreign_keys[:fk_idx]):
            set1_cols = set(curr_fk.child_column_names) & set(fk.child_column_names)
            if set1_cols:
                set1_cols = [*set1_cols]
                existing_vals = key_df[set1_cols]
                this_parent_to_overlap_grouped = this_parent_raw[set1_cols].groupby(set1_cols)
                for ov, rows in existing_vals.groupby(set1_cols):
                    try:
                        this_parent_rows = this_parent_to_overlap_grouped.get_group(ov)
                        allowed_choices = this_parent_rows.index.values
                        for r in rows.index:
                            if pools[r] is None:
                                pools[r] = allowed_choices
                            else:
                                pools[r] = np.intersect1d(pools[r], allowed_choices)
                    except KeyError:
                        pass
            prev_fk_cols |= set(fk.child_column_names)
        curr_fk_cols = set(curr_fk.child_column_names)
        all_fk_cols = prev_fk_cols | curr_fk_cols

        # inequality results in limited pools
        for (a, b) in self.transformers[table_name].config.inequality:
            this_ineq_cols = set(a) | set(b)
            if this_ineq_cols <= all_fk_cols and not this_ineq_cols <= prev_fk_cols:
                for i, fk in enumerate(self.transformers[table_name].config.foreign_keys[:fk_idx]):
                    set1_cols = set(fk.child_column_names) & this_ineq_cols
                    set2_cols = this_ineq_cols - prev_fk_cols
                    if set1_cols:
                        if set1_cols & set(a):
                            set1_cols = [x for x in a if x in set1_cols]
                            set2_cols = [x for x in b if x in set2_cols]
                        else:
                            set1_cols = [x for x in b if x in set1_cols]
                            set2_cols = [x for x in a if x in set2_cols]
                        existing_vals = key_df[set1_cols]
                        this_parent_to_overlap_grouped = this_parent_raw[set2_cols].groupby(set2_cols)
                        for ov, rows in existing_vals.groupby(set1_cols):
                            try:
                                this_parent_rows = this_parent_to_overlap_grouped.get_group(ov)
                                disallowed_choices = this_parent_rows.index.values
                                for r in rows.index:
                                    if pools[r] is None:
                                        pools[r] = np.setdiff1d(np.arange(this_parent_raw.shape[0]), disallowed_choices)
                                    else:
                                        pools[r] = np.setdiff1d(pools[r], disallowed_choices)
                            except KeyError:
                                pass

        # uniqueness constraints of uniqueness groups
        uniqueness_groups = []
        if self.transformers[table_name].config.primary_key:
            pk_cols = set(self.transformers[table_name].config.primary_key)
            if pk_cols <= (curr_fk_cols | prev_fk_cols) and not pk_cols <= prev_fk_cols:
                core_cols = [*pk_cols & prev_fk_cols]
                for g, d in key_df.groupby(core_cols):
                    uniqueness_groups.append(d.index.values)

        return values, parent, degrees, return_isna, pools, uniqueness_groups

    def prepare_sampled_dir(self, sampled_dir: str):
        if os.path.exists(sampled_dir):
            shutil.rmtree(sampled_dir)
        os.makedirs(sampled_dir, exist_ok=True)
        if os.path.exists(os.path.join(self._fitted_cache_dir, "pca")):
            shutil.copytree(os.path.join(self._fitted_cache_dir, "pca"), os.path.join(sampled_dir, "pca"))

    @classmethod
    def save_standalone_encoded_for(cls, table_name: str, encoded: np.ndarray, sampled_dir: str = "./sampled"):
        save_to({"encoded": encoded}, os.path.join(sampled_dir, f"{table_name}.pkl"))

    @classmethod
    def save_degree_for(cls, table_name: str, fk_idx: int, degree: np.ndarray, sampled_dir: str = "./sampled"):
        loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
        x, _ = loaded["foreign_keys"][fk_idx]["degree"]
        loaded["foreign_keys"][fk_idx]["degree"] = x, degree

        if fk_idx == 0:
            a, b, c, d = loaded.get("actual", (None, None, None, None))
            non_zero_deg = degree > 0
            loaded["actual"] = a, degree[non_zero_deg], c, d
            non_zero_x = x[non_zero_deg]
            loaded["aggregated"] = non_zero_x, None

        save_to(loaded, os.path.join(sampled_dir, f"{table_name}.pkl"))

    def save_isna_indicator_for(self, table_name: str, fk_idx: int, isna: np.ndarray, sampled_dir: str = "./sampled"):
        loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
        x, _ = loaded["foreign_keys"][fk_idx]["isna"]
        loaded["foreign_keys"][fk_idx]["isna"] = x, isna
        a, b, encoded, d = loaded["actual"]
        encoded[np.ix_(isna, self._parent_dims[table_name][fk_idx])] = 0
        loaded["actual"] = a, b, encoded, d

        save_to(loaded, os.path.join(sampled_dir, f"{table_name}.pkl"))

    @classmethod
    def save_aggregated_info_for(cls, table_name: str, aggregated: np.ndarray, sampled_dir: str = "./sampled"):
        loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
        agg_context, _ = loaded["aggregated"]
        loaded["aggregated"] = agg_context, aggregated
        actual_context = np.concatenate([agg_context, aggregated], axis=1)
        _, length, _, _ = loaded["actual"]
        loaded["actual"] = actual_context, length, None, None

        save_to(loaded, os.path.join(sampled_dir, f"{table_name}.pkl"))

    @classmethod
    def save_actual_values_for(
            cls, table_name: str, values: np.ndarray, groups: List[np.ndarray], sampled_dir: str = "./sampled"
    ):
        loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
        context, length, _, _ = loaded["actual"]
        length = np.array([len(x) for x in groups])
        loaded["actual"] = context, length, values, groups
        for i, fk in enumerate(loaded["foreign_keys"]):
            isnull = fk["isna"]
            if isnull is not None:
                cids = np.repeat(np.arange(context.shape[0]), length.astype(int))
                loaded["foreign_keys"][i]["isna"] = np.concatenate([context[cids], values], axis=1), None
                break
        save_to(loaded, os.path.join(sampled_dir, f"{table_name}.pkl"))

    def save_matched_indices_for(self, table_name: str, fk_idx: int,
                                 indices: np.ndarray, sampled_dir: str = "./sampled"):
        loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
        loaded["foreign_keys"][fk_idx]["match"] = indices
        context, length, encoded, d = loaded["actual"]
        parent, _ = loaded["foreign_keys"][fk_idx]["degree"]
        isna = np.isnan(indices.astype(np.float32))

        if self._parent_dims[table_name][fk_idx]:
            fk = self.transformers[table_name].config.foreign_keys[fk_idx]
            encoded[np.ix_(np.nonzero(~isna)[0], self._parent_dims[table_name][fk_idx])] = self._reduce_dims(
                parent[indices[~isna].astype(np.int32)], fk.parent_table_name, False, [fk],
                self._fitted_cache_dir, self.order[:self.order.index(table_name)]
            )
        loaded["actual"] = context, length, encoded, d
        for i, fk in enumerate(loaded["foreign_keys"]):
            if i <= fk_idx:
                continue
            isnull = fk["isna"]
            if isnull is not None:
                cids = np.repeat(np.arange(context.shape[0]), length.astype(int))
                loaded["foreign_keys"][i]["isna"] = np.concatenate([context[cids], encoded], axis=1), None
                break
        save_to(loaded, os.path.join(sampled_dir, f"{table_name}.pkl"))

    def copy_fitted_for(self, table_name: str, sampled_dir: str = "./sampled"):
        shutil.copyfile(os.path.join(self._fitted_cache_dir, f"{table_name}.pkl"),
                        os.path.join(sampled_dir, f"{table_name}.pkl"))
        shutil.copyfile(os.path.join(self._fitted_cache_dir, f"{table_name}.csv"),
                        os.path.join(sampled_dir, f"{table_name}.csv"))

    def prepare_next_for(self, table_name: str, sampled_dir: str = "./cache"):
        if self.transformers[table_name].config.foreign_keys:
            _, aggregated = self.aggregated_generation_for(table_name, sampled_dir)
            _, _, encoded, indices = self.actual_generation_for(table_name, sampled_dir)
            _, deg = self.degree_prediction_for(table_name, 0, sampled_dir)
            foreign_keys = self.transformers[table_name].config.foreign_keys
            fk = foreign_keys[0]
            parent = pd.read_csv(os.path.join(sampled_dir, f"{fk.parent_table_name}.csv"))
            parent_idx = pd.MultiIndex.from_frame(parent[fk.parent_column_names].rename({
                p: c for p, c in zip(fk.parent_column_names, fk.child_column_names)
            }))[deg > 0]
            groups = {
                pi: idx for pi, idx in zip(parent_idx, indices)
            }
            recovered = self.transformers[table_name].inverse_transform(
                encoded[:, self._core_dims[table_name]], groups, aggregated, parent_idx
            )

            occurred_cols = set()
            if len(foreign_keys) > 1:
                loaded = load_from(os.path.join(sampled_dir, f"{table_name}.pkl"))
            else:
                loaded = None
            for i, fk in enumerate(foreign_keys):
                if i == 0:
                    occurred_cols |= set(fk.child_column_names)
                    continue
                new_cols = [c for c in fk.child_column_names if c not in occurred_cols]
                match_indices = loaded["foreign_keys"][i]["match"]
                parent_table = pd.read_csv(os.path.join(sampled_dir, f"{fk.parent_table_name}.csv"))
                dummy_index = parent_table.shape[0]
                parent_table.loc[dummy_index, parent_table.columns] = np.nan
                recovered.loc[:, new_cols] = parent_table.iloc[np.where(
                    np.isnan(match_indices.astype(np.float32)), dummy_index, match_indices
                )].rename(
                    columns={p: c for p, c in zip(fk.parent_column_names, fk.child_column_names)}
                )[new_cols].set_axis(recovered.index, axis=0)
                occurred_cols |= set(fk.child_column_names)
        else:
            encoded = self.standalone_encoded_for(table_name, sampled_dir)
            recovered = self.transformers[table_name].inverse_transform(encoded)
        recovered.to_csv(os.path.join(sampled_dir, f"{table_name}.csv"), index=False)

        table_idx = self.order.index(table_name)
        if table_idx >= len(self.order) - 1:
            return
        next_table_name = self.order[table_idx + 1]
        degrees = []
        for i, fk in enumerate(self.transformers[next_table_name].config.foreign_keys):
            parent_raw, parent_context, parent_encoded = self._extend_till(
                fk.parent_table_name, next_table_name, fk.parent_column_names, sampled_dir, False, [fk]
            )
            parent_extend_till = np.concatenate([parent_context, parent_encoded], axis=1)
            degrees.append(parent_extend_till)
        save_to({
            "foreign_keys": [{
                "degree": (x, None), "isna": (None, None) if y else None
            } for x, y in zip(degrees, self._nullable.get(next_table_name, []))]
        }, os.path.join(sampled_dir, f"{next_table_name}.pkl"))