Spaces:

ChitiN7
/

ML_Salary_Predictor

Sleeping

App Files Files Community

ChitiN7 commited on Aug 23, 2025

Commit

bb36621

verified ·

1 Parent(s): 68e7378

Upload 3 files

Browse files

Files changed (3) hide show

app.py +258 -0
deploy_to_hf.py +106 -0
requirements.txt +6 -0

app.py ADDED Viewed

	@@ -0,0 +1,258 @@

+# MLPayGrade Hugging Face Spaces Deployment
+# This file will be automatically deployed on Hugging Face Spaces
+import gradio as gr
+import joblib
+import json
+import pickle
+import pandas as pd
+import numpy as np
+import os
+# Load model components
+def load_model():
+    """Load all saved model components"""
+    try:
+        # Load model and scaler
+        model = joblib.load('best_model.pkl')
+        scaler = joblib.load('scaler.pkl')
+        # Load feature names
+        with open('feature_names.json', 'r') as f:
+            feature_names = json.load(f)
+        # Load deployment functions
+        with open('deployment_functions.pkl', 'rb') as f:
+            deployment_data = pickle.load(f)
+        return model, scaler, feature_names, deployment_data
+    except Exception as e:
+        print(f"Error loading model components: {e}")
+        return None, None, None, None
+def engineer_features_simple(job_title, experience_level, company_size, employment_type, company_location, remote_ratio):
+    """Simple feature engineering without complex dependencies"""
+    # Basic mappings
+    exp_mapping = {"EN": 1, "MI": 2, "SE": 3, "EX": 4}
+    size_mapping = {"S": 1, "M": 2, "L": 3}
+    emp_mapping = {"FT": 1, "PT": 0.5, "CT": 0.8, "FL": 0.7}
+    # Create features
+    features = {}
+    features['work_year'] = 2024
+    features['experience_level_encoded'] = exp_mapping.get(experience_level, 2)
+    features['company_size_encoded'] = size_mapping.get(company_size, 2)
+    features['employment_type_encoded'] = emp_mapping.get(employment_type, 1)
+    features['remote_ratio'] = remote_ratio
+    # Job title categories (simplified)
+    if 'data scientist' in job_title.lower():
+        features['job_title_Data_Scientist'] = 1
+    elif 'ml engineer' in job_title.lower() or 'machine learning engineer' in job_title.lower():
+        features['job_title_ML_Engineer'] = 1
+    elif 'ai engineer' in job_title.lower():
+        features['job_title_AI_Engineer'] = 1
+    elif 'data engineer' in job_title.lower():
+        features['job_title_Data_Engineer'] = 1
+    elif 'data analyst' in job_title.lower():
+        features['job_title_Data_Analyst'] = 1
+    else:
+        features['job_title_Other'] = 1
+    # Location encoding (simplified)
+    if company_location.upper() == 'US':
+        features['employee_residence_US'] = 1
+    elif company_location.upper() == 'CA':
+        features['employee_residence_CA'] = 1
+    elif company_location.upper() == 'GB':
+        features['employee_residence_GB'] = 1
+    else:
+        features['employee_residence_Other'] = 1
+    # Interaction features
+    features['exp_size_interaction'] = features['experience_level_encoded'] * features['company_size_encoded']
+    features['exp_remote_interaction'] = features['experience_level_encoded'] * remote_ratio
+    features['size_remote_interaction'] = features['company_size_encoded'] * remote_ratio
+    # Complexity features
+    features['job_title_complexity'] = len(job_title.split())
+    features['location_diversity'] = 1
+    return features
+def predict_salary(job_title, experience_level, company_size, employment_type, company_location, remote_ratio):
+    """Make salary prediction"""
+    # Load model components
+    model, scaler, feature_names, deployment_data = load_model()
+    if model is None:
+        return "❌ Error: Failed to load model components", "Model not available"
+    try:
+        # Engineer features
+        features = engineer_features_simple(
+            job_title, experience_level, company_size,
+            employment_type, company_location, remote_ratio
+        )
+        # Create feature vector
+        feature_vector = []
+        for feature in feature_names:
+            feature_vector.append(features.get(feature, 0))
+        # Scale features
+        feature_vector = np.array(feature_vector).reshape(1, -1)
+        feature_vector_scaled = scaler.transform(feature_vector)
+        # Make prediction
+        prediction = model.predict(feature_vector_scaled)[0]
+        # Format output
+        salary_formatted = f"${prediction:,.0f}"
+        # Create explanation
+        explanation = f"""
+        **Prediction Details:**
+        - **Job Title:** {job_title}
+        - **Experience Level:** {experience_level}
+        - **Company Size:** {company_size}
+        - **Employment Type:** {employment_type}
+        - **Location:** {company_location}
+        - **Remote Work:** {remote_ratio}
+        **Model Information:**
+        - **Algorithm:** LightGBM Regressor
+        - **Features Used:** {len(feature_names)} clean features
+        - **Performance:** R² = 0.2848 (honest, no data leakage)
+        - **Data Year:** 2024
+        **Key Features:**
+        - Experience Level: {features['experience_level_encoded']}
+        - Company Size: {features['company_size_encoded']}
+        - Remote Ratio: {remote_ratio}
+        - Job Complexity: {features['job_title_complexity']} words
+        """
+        return salary_formatted, explanation
+    except Exception as e:
+        return f"❌ Error: {str(e)}", "Prediction failed"
+# Create Gradio interface
+with gr.Blocks(
+    title="MLPayGrade Advanced Salary Predictor",
+    theme=gr.themes.Soft(),
+    css="""
+        .gradio-container { max-width: 1200px; margin: 0 auto; }
+        .header { text-align: center; margin-bottom: 2rem; }
+        .prediction-box { background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 2rem; border-radius: 15px; text-align: center; }
+        .salary-display { font-size: 3rem; font-weight: bold; margin: 1rem 0; }
+        .metrics-grid { display: grid; grid-template-columns: repeat(auto-fit, minmax(200px, 1fr)); gap: 1rem; margin-top: 2rem; }
+        .metric-card { background: white; padding: 1rem; border-radius: 10px; text-align: center; }
+    """
+) as demo:
+    gr.Markdown("""
+    <div class="header">
+        <h1>💰 MLPayGrade Advanced Salary Predictor</h1>
+        <h3>AI-Powered Salary Prediction with 85 Clean Features (No Data Leakage)</h3>
+        <p>Predict salaries for Machine Learning and AI professionals using our honest, data-leakage-free model</p>
+    </div>
+    """)
+    with gr.Row():
+        with gr.Column(scale=1):
+            gr.Markdown("## 🎯 Job Configuration")
+            job_title = gr.Textbox(
+                label="Job Title",
+                value="Data Scientist",
+                placeholder="e.g., Data Scientist, ML Engineer, Research Scientist",
+                info="Enter the specific job title"
+            )
+            experience_level = gr.Dropdown(
+                label="Experience Level",
+                choices=["EN", "MI", "SE", "EX"],
+                value="SE",
+                info="EN=Entry, MI=Mid, SE=Senior, EX=Executive"
+            )
+            company_size = gr.Dropdown(
+                label="Company Size",
+                choices=["S", "M", "L"],
+                value="M",
+                info="S=Small(<50), M=Medium(50-250), L=Large(>250)"
+            )
+            employment_type = gr.Dropdown(
+                label="Employment Type",
+                choices=["FT", "PT", "CT", "FL"],
+                value="FT",
+                info="FT=Full-time, PT=Part-time, CT=Contract, FL=Freelance"
+            )
+            company_location = gr.Textbox(
+                label="Company Location",
+                value="US",
+                placeholder="e.g., US, CA, GB, AU, DE, FR",
+                info="Enter country code"
+            )
+            remote_ratio = gr.Slider(
+                label="Remote Work Ratio",
+                minimum=0.0,
+                maximum=1.0,
+                value=0.5,
+                step=0.5,
+                info="0.0=On-site, 0.5=Hybrid, 1.0=Remote"
+            )
+            predict_btn = gr.Button("🚀 Predict Salary", variant="primary", size="lg")
+            gr.Markdown("---")
+            gr.Markdown("## 📊 Model Performance (Corrected)")
+            gr.Markdown("**R² Score:** 0.2848")
+            gr.Markdown("**MAE:** $44,323.68")
+            gr.Markdown("**RMSE:** $64,868.74")
+            gr.Markdown("**Status:** No Data Leakage ✅")
+        with gr.Column(scale=2):
+            gr.Markdown("## 📈 Prediction Results")
+            with gr.Row():
+                salary_output = gr.Textbox(
+                    label="Predicted Annual Salary",
+                    value="Enter job details and click Predict",
+                    scale=2
+                )
+            explanation_output = gr.Markdown(
+                value="Detailed explanation will appear here after prediction",
+                label="📋 Prediction Details & Model Information"
+            )
+            gr.Markdown("## 🎯 What-If Analysis")
+            gr.Markdown("Try changing the parameters above to see how they affect salary predictions!")
+    # Event handlers
+    predict_btn.click(
+        fn=predict_salary,
+        inputs=[job_title, experience_level, company_size, employment_type, company_location, remote_ratio],
+        outputs=[salary_output, explanation_output]
+    )
+    gr.Markdown("---")
+    gr.Markdown("""
+    <div style="text-align: center; color: #6c757d;">
+        <h4>MLPayGrade Advanced Track - Deployed on Hugging Face Spaces</h4>
+        <p><strong>Model:</strong> LightGBM Regressor | <strong>Features:</strong> 85 Clean | <strong>Performance:</strong> R² = 0.2848</p>
+        <p><strong>Data Quality:</strong> 2024 ML/AI Job Market | <strong>Validation:</strong> Honest Performance (No Data Leakage)</p>
+    </div>
+    """)
+# Launch the app
+if __name__ == "__main__":
+    demo.launch()

deploy_to_hf.py ADDED Viewed

	@@ -0,0 +1,106 @@

+#!/usr/bin/env python3
+"""
+MLPayGrade Hugging Face Deployment Helper
+This script helps prepare and upload your model to Hugging Face Spaces
+"""
+import os
+import shutil
+import subprocess
+import sys
+def check_files():
+    """Check if all required files are present"""
+    required_files = [
+        'app.py',
+        'requirements.txt',
+        'best_model.pkl',
+        'scaler.pkl',
+        'feature_names.json',
+        'deployment_functions.pkl',
+        'shap_explainer.pkl',
+        'shap_importance.json'
+    ]
+    missing_files = []
+    for file in required_files:
+        if not os.path.exists(file):
+            missing_files.append(file)
+    if missing_files:
+        print("❌ Missing required files:")
+        for file in missing_files:
+            print(f"   - {file}")
+        return False
+    print("✅ All required files are present!")
+    return True
+def create_deployment_folder():
+    """Create a clean deployment folder"""
+    deploy_folder = "hf_deployment"
+    if os.path.exists(deploy_folder):
+        shutil.rmtree(deploy_folder)
+    os.makedirs(deploy_folder)
+    # Copy all required files
+    files_to_copy = [
+        'app.py',
+        'requirements.txt',
+        'best_model.pkl',
+        'scaler.pkl',
+        'feature_names.json',
+        'deployment_functions.pkl',
+        'shap_explainer.pkl',
+        'shap_importance.json'
+    ]
+    for file in files_to_copy:
+        if os.path.exists(file):
+            shutil.copy2(file, deploy_folder)
+            print(f"📁 Copied: {file}")
+    return deploy_folder
+def main():
+    print("🚀 MLPayGrade Hugging Face Deployment Helper")
+    print("=" * 50)
+    # Check files
+    if not check_files():
+        print("\n❌ Please ensure all required files are present before deployment.")
+        return
+    # Create deployment folder
+    deploy_folder = create_deployment_folder()
+    print(f"\n✅ Deployment folder created: {deploy_folder}")
+    print("\n📋 Next Steps:")
+    print("1. Go to https://huggingface.co/spaces")
+    print("2. Click 'Create new Space'")
+    print("3. Choose 'Gradio' as SDK")
+    print("4. Set Space name (e.g., 'MLPayGrade-Salary-Predictor')")
+    print("5. Choose visibility (Public or Private)")
+    print("6. Upload all files from the 'hf_deployment' folder")
+    print("7. Wait for automatic deployment")
+    print(f"\n📁 Files ready in: {os.path.abspath(deploy_folder)}")
+    print("\n🎯 Your app will be available at:")
+    print("   https://huggingface.co/spaces/YOUR_USERNAME/SPACE_NAME")
+    # Open deployment folder
+    try:
+        if sys.platform == "darwin":  # macOS
+            subprocess.run(["open", deploy_folder])
+        elif sys.platform == "win32":  # Windows
+            subprocess.run(["explorer", deploy_folder])
+        else:  # Linux
+            subprocess.run(["xdg-open", deploy_folder])
+        print(f"\n📂 Opened deployment folder: {deploy_folder}")
+    except:
+        print(f"\n📂 Deployment folder location: {os.path.abspath(deploy_folder)}")
+if __name__ == "__main__":
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio>=4.0.0
+joblib>=1.3.0
+pandas>=1.5.0
+numpy>=1.24.0
+scikit-learn>=1.3.0
+lightgbm>=4.0.0