Spaces:

GVHD-UAE
/

GVHD_Prediction

Sleeping

App Files Files Community

mridzuan commited on Jul 10, 2025

Commit

e989a63

1 Parent(s): 11ee773

add HLA_MATCHING_MAP

Browse files

Files changed (1) hide show

src/preprocess_utils.py +36 -11

src/preprocess_utils.py CHANGED Viewed

@@ -22,7 +22,7 @@ NATIONALITY_CORRECTIONS = {
     "USA": "AMERICAN",
 }
 # 1. Regional Grouping (Geography-Based)
-regional_grouping = {
     # Middle East
     'EMIRATI': 'Middle East',
     'OMANI': 'Middle East',
@@ -72,7 +72,7 @@ regional_grouping = {
 }
 # 2. Cultural-Linguistic Grouping
-cultural_grouping = {
     'EMIRATI': 'Arab',
     'OMANI': 'Arab',
     'SAUDI': 'Arab',
@@ -109,7 +109,7 @@ cultural_grouping = {
 }
 # 3. World Bank Income Grouping
-income_grouping = {
     'EMIRATI': 'High income',
     'OMANI': 'High income',
     'SAUDI': 'High income',
@@ -146,7 +146,7 @@ income_grouping = {
 }
 # 4. WHO Regional Office Grouping
-who_region_grouping = {
     'EMIRATI': 'EMRO',
     'OMANI': 'EMRO',
     'SAUDI': 'EMRO',
@@ -182,10 +182,10 @@ who_region_grouping = {
     'FIJI': 'WPRO'
 }
 groupings = {
-    'Recepient_Nationality_Geographical': regional_grouping,
-    'Recepient_Nationality_Cultural': cultural_grouping,
-    'Recepient_Nationality_Regional_Income': income_grouping,
-    'Recepient_Nationality_Regional_WHO': who_region_grouping
 }
 # FIRST_GVHD_PROPHYLAXIS_CORRECTIONS
@@ -229,7 +229,7 @@ STRING_NORMALIZATION_MAP = {
     r"(?i)Umbilical Cord blood": "UMBILICAL CORD",
     r"(?i)Bone Marrow": "BONE MARROW", "MDS": "MYELODYSPLASTIC SYNDROME"
 }
-diagnosis_group_map = {
     "MYELOPROLIFERATIVE DISORDER": "MYELOPROLIFERATIVE NEOPLASMS",
     "CML": "MYELOPROLIFERATIVE NEOPLASMS",
     "MYELOFIBROSIS": "MYELOPROLIFERATIVE NEOPLASMS",
@@ -276,7 +276,7 @@ diagnosis_group_map = {
 }
 # # 0 nonmalignant; 1: malignant
-malignant_map = {
     'AML': 1,
     'RED CELL DISORDERS': 0,
     'AMYLOIDOSIS': 0,
@@ -296,6 +296,25 @@ malignant_map = {
     'PLASMA CELL LEUKEMIA': 0
 }
 def load_train_features():
     # Define features
     HLA_sub12 = [
@@ -474,6 +493,12 @@ def clean_blood_group_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
         df[col] = df[col].str.replace(r"\s+", "", regex=True)
     return df
 def process_hla_columns(df: pd.DataFrame) -> pd.DataFrame:
     """
     Clean and process HLA columns by:
@@ -524,7 +549,6 @@ def process_hla_columns(df: pd.DataFrame) -> pd.DataFrame:
     return df
 def cast_as_int_if_possible(x):
     try:
         i = int(x)
@@ -897,6 +921,7 @@ def preprocess_pipeline(df) -> pd.DataFrame:
         df = handle_self_donor_consistency(df)
     # HLA processing
     df = process_hla_columns(df)
     df = expand_HLA_cols(df)

     "USA": "AMERICAN",
 }
 # 1. Regional Grouping (Geography-Based)
+REGIONAL_GROUPING = {
     # Middle East
     'EMIRATI': 'Middle East',
     'OMANI': 'Middle East',
 }
 # 2. Cultural-Linguistic Grouping
+CULTURAL_GROUPING = {
     'EMIRATI': 'Arab',
     'OMANI': 'Arab',
     'SAUDI': 'Arab',
 }
 # 3. World Bank Income Grouping
+INCOME_GROUPING = {
     'EMIRATI': 'High income',
     'OMANI': 'High income',
     'SAUDI': 'High income',
 }
 # 4. WHO Regional Office Grouping
+WHO_REGION_GROUPING = {
     'EMIRATI': 'EMRO',
     'OMANI': 'EMRO',
     'SAUDI': 'EMRO',
     'FIJI': 'WPRO'
 }
 groupings = {
+    'Recepient_Nationality_Geographical': REGIONAL_GROUPING,
+    'Recepient_Nationality_Cultural': CULTURAL_GROUPING,
+    'Recepient_Nationality_Regional_Income': INCOME_GROUPING,
+    'Recepient_Nationality_Regional_WHO': WHO_REGION_GROUPING
 }
 # FIRST_GVHD_PROPHYLAXIS_CORRECTIONS
     r"(?i)Umbilical Cord blood": "UMBILICAL CORD",
     r"(?i)Bone Marrow": "BONE MARROW", "MDS": "MYELODYSPLASTIC SYNDROME"
 }
+DIAGNOSIS_GROUP_MAP = {
     "MYELOPROLIFERATIVE DISORDER": "MYELOPROLIFERATIVE NEOPLASMS",
     "CML": "MYELOPROLIFERATIVE NEOPLASMS",
     "MYELOFIBROSIS": "MYELOPROLIFERATIVE NEOPLASMS",
 }
 # # 0 nonmalignant; 1: malignant
+MALIGNANT_MAP = {
     'AML': 1,
     'RED CELL DISORDERS': 0,
     'AMYLOIDOSIS': 0,
     'PLASMA CELL LEUKEMIA': 0
 }
+HLA_MATCHING_MAP = {
+    "12 OF 12": "FULL",
+    "10 OF 10": "FULL",
+    "8 OF 8": "FULL",  # not full?
+    "9 OF 10": "PARTIAL",
+    "8 OF 10": "PARTIAL",
+    "PARTIALLY MATCHED": "PARTIAL",
+    "7 OF 10": "HAPLOIDENTICAL",
+    "6 OF 12": "HAPLOIDENTICAL",
+    "6 OF 10": "HAPLOIDENTICAL",
+    "5 OF 10": "HAPLOIDENTICAL",
+    # confirm if the following are all haploidentical
+    "5 OF 8": "HAPLOIDENTICAL",
+    "4 OF 6": "HAPLOIDENTICAL",
+}
 def load_train_features():
     # Define features
     HLA_sub12 = [
         df[col] = df[col].str.replace(r"\s+", "", regex=True)
     return df
+def standardize_hla_matching(df: pd.DataFrame) -> pd.DataFrame:
+    # Map HLA matching values to standardized format
+    df['HLA match ratio'] = df['HLA match ratio'].replace(HLA_MATCHING_MAP, regex=False)
+    return df
 def process_hla_columns(df: pd.DataFrame) -> pd.DataFrame:
     """
     Clean and process HLA columns by:
     return df
 def cast_as_int_if_possible(x):
     try:
         i = int(x)
         df = handle_self_donor_consistency(df)
     # HLA processing
+    df = standardize_hla_matching(df)
     df = process_hla_columns(df)
     df = expand_HLA_cols(df)