Spaces:

pavanammm
/

Insurance

Sleeping

App Files Files Community

pavanammm commited on Dec 12, 2025

Commit

13d1c10

verified ·

1 Parent(s): 37ae2f3

first commit

Browse files

Files changed (5) hide show

app.py +89 -0
data_config.py +30 -0
random_forest_model.joblib +3 -0
requirements.txt +4 -0
scaler.joblib +3 -0

app.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import gradio as gr
+import pandas as pd
+import joblib
+from data_config import region_data, training_columns, unique_pincodes, unique_places
+# Load the trained model and scaler globally for efficiency
+try:
+    model = joblib.load('random_forest_model.joblib')
+    scaler = joblib.load('scaler.joblib')
+except FileNotFoundError:
+    print("Error: Model or scaler file not found. Make sure 'random_forest_model.joblib' and 'scaler.joblib' are in the same directory.")
+    # Exit or handle error appropriately for deployment
+    exit()
+def predict_charges(age, sex, bmi, children, smoker, pincode, place):
+    # Create a DataFrame from the raw input
+    input_data = pd.DataFrame([{
+        'age': age,
+        'sex': sex,
+        'bmi': bmi,
+        'children': children,
+        'smoker': smoker,
+        'pincode': pincode,
+        'place': place
+    }])
+    # Define numerical and categorical columns as used during training
+    numerical_cols_to_scale = ['age', 'bmi', 'children']
+    categorical_cols_to_encode = ['sex', 'smoker', 'pincode', 'place']
+    # Scale numerical features
+    input_data[numerical_cols_to_scale] = scaler.transform(input_data[numerical_cols_to_scale])
+    # Apply one-hot encoding to categorical features
+    # Ensure drop_first=False to match how `pd.get_dummies` was used initially for X
+    input_data_encoded = pd.get_dummies(input_data, columns=categorical_cols_to_encode, drop_first=False)
+    # Align columns with the training data's columns
+    # This step is critical to ensure that the input DataFrame for prediction
+    # has the exact same columns as the training DataFrame (X) and in the same order.
+    # It handles cases where a category might not be present in the single input row.
+    final_input = pd.DataFrame(columns=training_columns)
+    final_input = pd.concat([final_input, input_data_encoded], ignore_index=True)
+    final_input = final_input.fillna(False) # Fill missing one-hot columns (e.g., sex_male if only female input) with False
+    # Ensure boolean columns are treated as 0/1 for the model if necessary
+    for col in final_input.columns:
+        if final_input[col].dtype == 'bool':
+            final_input[col] = final_input[col].astype(int)
+    # Reorder columns to match the training data
+    final_input = final_input[training_columns]
+    # Make prediction
+    prediction = model.predict(final_input)
+    return prediction[0]
+# Define Gradio input components
+age_input = gr.Slider(minimum=18, maximum=100, step=1, value=30, label="Age")
+sex_input = gr.Radio(choices=['female', 'male'], value='female', label="Sex")
+bmi_input = gr.Slider(minimum=10.0, maximum=60.0, step=0.1, value=25.0, label="BMI")
+children_input = gr.Slider(minimum=0, maximum=5, step=1, value=1, label="Children")
+smoker_input = gr.Radio(choices=['no', 'yes'], value='no', label="Smoker")
+pincode_input = gr.Dropdown(choices=unique_pincodes, value=unique_pincodes[0] if unique_pincodes else None, label="Pincode")
+place_input = gr.Dropdown(choices=unique_places, value=unique_places[0] if unique_places else None, label="Place")
+# Create the Gradio Interface
+interface = gr.Interface(
+    fn=predict_charges,
+    inputs=[
+        age_input,
+        sex_input,
+        bmi_input,
+        children_input,
+        smoker_input,
+        pincode_input,
+        place_input
+    ],
+    outputs=gr.Number(label="Predicted Insurance Charges"),
+    title="Insurance Charge Predictor",
+    description="Enter the details to get an estimated insurance charge."
+)
+# Launch the Gradio interface
+if __name__ == '__main__':
+    interface.launch(share=True)

data_config.py ADDED Viewed

	@@ -0,0 +1,30 @@

+# This file contains configuration data for the insurance charges prediction application.
+import random
+# Define the region_data dictionary with pincodes and places for each region.
+region_data = {'southeast': {'pincodes': ['30301', '33101', '37201', '27514', '29501'], 'places': ['Atlanta, Georgia', 'Miami, Florida', 'Nashville, Tennessee', 'Chapel Hill, North Carolina', 'Florence, South Carolina']}, 'southwest': {'pincodes': ['85001', '73301', '87501', '73102', '85701'], 'places': ['Phoenix, Arizona', 'Austin, Texas', 'Santa Fe, New Mexico', 'Oklahoma City, Oklahoma', 'Tucson, Arizona']}, 'northwest': {'pincodes': ['98101', '97201', '83702', '99201', '59715'], 'places': ['Seattle, Washington', 'Portland, Oregon', 'Boise, Idaho', 'Spokane, Washington', 'Bozeman, Montana']}, 'northeast': {'pincodes': ['10001', '02108', '19103', '07030', '06103'], 'places': ['New York, New York', 'Boston, Massachusetts', 'Philadelphia, Pennsylvania', 'Hoboken, New Jersey', 'Hartford, Connecticut']}}
+# List of columns used during model training.
+# This ensures that input data for prediction is processed with the same column structure.
+training_columns = ['age', 'bmi', 'children', 'sex_female', 'sex_male', 'smoker_no', 'smoker_yes', 'pincode_02108', 'pincode_06103', 'pincode_07030', 'pincode_10001', 'pincode_19103', 'pincode_27514', 'pincode_29501', 'pincode_30301', 'pincode_33101', 'pincode_37201', 'pincode_59715', 'pincode_73102', 'pincode_73301', 'pincode_83702', 'pincode_85001', 'pincode_85701', 'pincode_87501', 'pincode_97201', 'pincode_98101', 'pincode_99201', 'place_Atlanta, Georgia', 'place_Austin, Texas', 'place_Boise, Idaho', 'place_Boston, Massachusetts', 'place_Bozeman, Montana', 'place_Chapel Hill, North Carolina', 'place_Florence, South Carolina', 'place_Hartford, Connecticut', 'place_Hoboken, New Jersey', 'place_Miami, Florida', 'place_Nashville, Tennessee', 'place_New York, New York', 'place_Oklahoma City, Oklahoma', 'place_Philadelphia, Pennsylvania', 'place_Phoenix, Arizona', 'place_Portland, Oregon', 'place_Santa Fe, New Mexico', 'place_Seattle, Washington', 'place_Spokane, Washington', 'place_Tucson, Arizona']
+# Function to assign a random pincode and place based on region
+def assign_location_data(row):
+    region = row['region']
+    if region in region_data:
+        pincode = random.choice(region_data[region]['pincodes'])
+        place = random.choice(region_data[region]['places'])
+        return pincode, place
+    return None, None
+# Extract unique pincodes and places from region_data for dropdown options
+all_pincodes = []
+all_places = []
+for region in region_data:
+    all_pincodes.extend(region_data[region]['pincodes'])
+    all_places.extend(region_data[region]['places'])
+unique_pincodes = sorted(list(set(all_pincodes)))
+unique_places = sorted(list(set(all_places)))

random_forest_model.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e6afb614fefc63a80834f684cd21f53b194b1db360326c0ca5d9542c24f80bb
+size 22880369

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+pandas
+scikit-learn
+gradio
+joblib

scaler.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f9ae5dad94b3950eb2ddd5b9cc85d383daa67e8944421be1fd1ba2ebc1311f2
+size 943