Spaces:

Mandr1
/

BigDatauas

Sleeping

App Files Files Community

Mandr1 commited on Nov 24, 2025

Commit

ffeba1e

verified ·

1 Parent(s): 6406cf5

Create app.py

Browse files

Files changed (1) hide show

app.py +227 -0

app.py ADDED Viewed

	@@ -0,0 +1,227 @@

+import gradio as gr
+import matplotlib.pyplot as plt
+import pandas as pd
+import joblib
+# from pyspark.sql import SparkSession # No longer needed for inference
+# from pyspark.sql.functions import col, max as spark_max # No longer needed for inference
+from pyspark.sql.types import StringType, IntegerType, StructType, StructField # Still needed for schema definition if Spark is used elsewhere in the app.py, but not for this specific prediction path.
+# ==================================================
+# BAGIAN 0: INITIAL SETUP & LOAD SAVED MODELS
+# ==================================================
+print("Loading saved scikit-learn models and preprocessor...")
+# Load the saved preprocessor
+try:
+    preprocessor = joblib.load('preprocessor.pkl')
+    print("✅ Preprocessor loaded successfully.")
+except FileNotFoundError:
+    print("❌ Error: 'preprocessor.pkl' not found. Please ensure it's in the same directory.")
+    exit()
+# Load the trained scikit-learn models
+try:
+    lr_model = joblib.load('lr_model.pkl')
+    dt_model = joblib.load('dt_model.pkl')
+    rf_model = joblib.load('rf_model.pkl')
+    loaded_models = {
+        'Linear Regression': lr_model,
+        'Decision Tree': dt_model,
+        'Random Forest': rf_model
+    }
+    print("✅ Scikit-learn models loaded successfully.")
+except FileNotFoundError:
+    print("❌ Error: One or more model .pkl files not found. Please ensure they are in the same directory.")
+    exit()
+# Load and clean job_salary_mean.csv using pandas for benchmarks
+try:
+    pd_df_raw = pd.read_csv('job_salary_mean.csv')
+    pd_df_clean = pd_df_raw.rename(columns={
+        "Judul Pekerjaan": "judul",
+        "Perusahaan": "perusahaan",
+        "Lokasi": "lokasi",
+        "Gaji_Rata2": "gaji"
+    })
+    pd_df_clean['judul_clean'] = pd_df_clean['judul'].str.lower()
+    pd_df_clean['lokasi_clean'] = pd_df_clean['lokasi'].str.lower()
+    pd_df_clean = pd_df_clean.dropna()
+    print(f"✅ Pandas DataFrame for benchmarks loaded and cleaned. Total rows: {len(pd_df_clean)}")
+except FileNotFoundError:
+    print("❌ Error: 'job_salary_mean.csv' not found. Please ensure it's in the same directory.")
+    exit()
+# ==================================================
+# BAGIAN 6 (FINAL): DASHBOARD DENGAN DATABASE WILAYAH RESMI
+# ==================================================
+# ---------------------------------------------------------
+# A. PERSIAPAN MASTER DATA WILAYAH (Dari File CSV Baru)
+# ---------------------------------------------------------
+print("Sedang memproses Database Wilayah Indonesia...")
+# 1. Baca Dataset Kabupaten/Kota
+try:
+    geo_df = pd.read_csv('dataset kabupaten indonesia.csv')
+    # Rename kolom agar jelas: 'name' -> 'kota', 'Unnamed: 3' -> 'provinsi'
+    geo_df = geo_df[['name', 'Unnamed: 3']].rename(columns={'name': 'kota', 'Unnamed: 3': 'provinsi'})
+    # Bersihkan Nama Kota (Hapus "KABUPATEN " dan "KOTA ") & Lowercase
+    # Contoh: "KABUPATEN ACEH BARAT" -> "aceh barat"
+    geo_df['kota_clean'] = geo_df['kota'].astype(str).str.replace('KABUPATEN ', '').str.replace('KOTA ', '').str.lower().str.strip()
+    geo_df['provinsi'] = geo_df['provinsi'].astype(str).str.upper().str.strip()
+    # Buat Kamus Pencarian (Dictionary)
+    # Format: {'aceh barat': 'ACEH', 'surabaya': 'JAWA TIMUR', ...}
+    kamus_wilayah = pd.Series(geo_df.provinsi.values, index=geo_df.kota_clean).to_dict()
+    print(f"✅ Berhasil memuat {len(kamus_wilayah)} wilayah administrasi Indonesia.")
+except FileNotFoundError:
+    print("❌ ERROR: File 'dataset kabupaten indonesia.csv' tidak ditemukan. Upload dulu!")
+    kamus_wilayah = {}
+# 2. Mapping Provinsi ke Pulau (Logic Tambahan)
+def get_pulau_from_provinsi(provinsi):
+    p = provinsi.upper()
+    if any(x in p for x in ['JAWA', 'DKI', 'BANTEN', 'YOGYAKARTA']): return "PULAU JAWA"
+    if any(x in p for x in ['SUMATERA', 'ACEH', 'RIAU', 'JAMBI', 'BENGKULU', 'LAMPUNG', 'BANGKA']): return "PULAU SUMATERA"
+    if any(x in p for x in ['KALIMANTAN']): return "PULAU KALIMANTAN"
+    if any(x in p for x in ['SULAWESI', 'GORONTALO']): return "PULAU SULAWESI"
+    if any(x in p for x in ['BALI', 'NUSA TENGGARA']): return "BALI & NUSA TENGGARA"
+    if any(x in p for x in ['PAPUA', 'MALUKU']): return "PAPUA & MALUKU"
+    return "INDONESIA (LAINNYA)"
+# ---------------------------------------------------------
+# B. FUNGSI CERDAS: DETEKSI LOKASI USER
+# ---------------------------------------------------------
+def deteksi_info_lokasi(input_user):
+    text = input_user.lower().strip()
+    # Cek apakah input user mengandung nama kota yang ada di database
+    provinsi_terdeteksi = "INDONESIA" # Default
+    for kota_db, prov_db in kamus_wilayah.items():
+        # Jika user ngetik "Simeulue" dan di db ada "simeulue", maka ketemu!
+        if kota_db in text:
+            provinsi_terdeteksi = prov_db
+            break
+    pulau_terdeteksi = get_pulau_from_provinsi(provinsi_terdeteksi)
+    return provinsi_terdeteksi, pulau_terdeteksi
+# ---------------------------------------------------------
+# C. FUNGSI ANALISIS UTAMA
+# ---------------------------------------------------------
+def analisis_gaji_final(judul_input, lokasi_input, model_choice):
+    # 1. Prediksi ML (Menggunakan Scikit-learn model)
+    model_pipeline = loaded_models[model_choice]
+    # Prepare input for scikit-learn pipeline (pandas DataFrame)
+    input_df = pd.DataFrame({
+        'judul_clean': [judul_input.lower()],
+        'lokasi_clean': [lokasi_input.lower()],
+        'perusahaan': ['unknown_company_for_prediction'] # Placeholder for 'perusahaan'
+    })
+    try:
+        prediksi_user = model_pipeline.predict(input_df)[0]
+        # Ensure prediction is non-negative
+        prediksi_user = max(0, prediksi_user)
+    except Exception as e:
+        return f"<h1>⚠️ Error during prediction: {e}</h1>", None
+    # 2. Deteksi Wilayah Cerdas
+    provinsi_found, pulau_found = deteksi_info_lokasi(lokasi_input)
+    # 3. Logika Benchmark (Pembanding) - Menggunakan pd_df_clean
+    judul_lower = judul_input.lower()
+    # A. Max Gaji Pekerjaan (Nasional)
+    # Filter jobs where judul_clean contains the input judul_lower
+    filtered_jobs = pd_df_clean[pd_df_clean['judul_clean'].str.contains(judul_lower, na=False)]
+    if not filtered_jobs.empty:
+        max_gaji_job = filtered_jobs['gaji'].max()
+    else:
+        max_gaji_job = prediksi_user * 1.2 # Fallback if no matching jobs found
+    # B. Max Gaji Regional (Berdasarkan Pulau yang ditemukan)
+    keyword_pencarian = pulau_found.replace("PULAU ", "").lower() # Misal "jawa", "sumatera"
+    # Filter locations where lokasi_clean contains the keyword_pencarian
+    filtered_locations = pd_df_clean[pd_df_clean['lokasi_clean'].str.contains(keyword_pencarian, na=False)]
+    if not filtered_locations.empty:
+        max_gaji_region = filtered_locations['gaji'].max()
+    else:
+        max_gaji_region = prediksi_user * 1.5 # Fallback if no matching locations found
+    # 4. Visualisasi Matplotlib
+    plt.style.use('seaborn-v0_8-whitegrid')
+    fig, ax = plt.subplots(figsize=(10, 5.5))
+    labels = [f"Estimasi Anda\n({lokasi_input})", f"Max Posisi '{judul_input}'\n(Nasional)", f"Max Regional\n({pulau_found})"]
+    values = [prediksi_user, max_gaji_job, max_gaji_region]
+    colors = ['#0ea5e9', '#94a3b8', '#f59e0b'] # Biru Langit, Abu, Oranye
+    bars = ax.bar(labels, values, color=colors, edgecolor='black', alpha=0.9)
+    # Garis referensi gaji user
+    ax.axhline(y=prediksi_user, color='#0ea5e9', linestyle='--', linewidth=2, label="Posisi Anda")
+    for bar in bars:
+        height = bar.get_height()
+        ax.text(bar.get_x() + bar.get_width()/2., height + (height*0.015),
+                 f'Rp {height/1000000:.1f} Jt',
+                 ha='center', va='bottom', fontweight='bold', fontsize=11)
+    ax.set_title(f"Analisis Gaji: {judul_input} @ {provinsi_found} (Model: {model_choice}) ", fontsize=14, fontweight='bold', pad=15)
+    ax.set_ylabel("Gaji (Rupiah)")
+    ax.grid(axis='y', linestyle='--', alpha=0.5)
+    # 5. Generate Output HTML
+    html_output = f"""
+    <div style="font-family: sans-serif; padding: 20px; border: 1px solid #e2e8f0; border-radius: 12px; background: linear-gradient(to right, #f8fafc, #ffffff);">
+        <h2 style="color: #0f172a; margin-bottom: 5px;">💰 Estimasi: Rp {int(prediksi_user):,.0f}</h2>
+        <span style="background-color: #e0f2fe; color: #0369a1; padding: 4px 10px; border-radius: 20px; font-size: 0.85em; font-weight: bold;">
+            📍 {provinsi_found} / {pulau_found}
+        </span>
+        <p style="margin-top: 15px; color: #475569; line-height: 1.5;">
+            Sistem mendeteksi lokasi Anda berada di provinsi <b>{provinsi_found}</b>.
+            Berdasarkan data historis, standar gaji pasar untuk <b>{judul_input}</b> di wilayah ini adalah seperti di atas.
+        </p>
+        <div style="margin-top: 15px; padding: 10px; background-color: #fff7ed; border-left: 4px solid #f97316; color: #9a3412; font-size: 0.9em;">
+            💡 <b>Insight Regional:</b> Batas atas gaji tertinggi (semua sektor) di {pulau_found} tercatat mencapai <b>Rp {int(max_gaji_region):,.0f}</b>.
+        </div>
+    </div>
+    """
+    return html_output, fig
+# ---------------------------------------------------------
+# D. INTERFACE GRADIO
+# ---------------------------------------------------------
+theme = gr.themes.Soft(primary_hue="cyan", secondary_hue="slate")
+with gr.Blocks(theme=theme, title="Salary AI") as demo:
+    gr.Markdown("# 🇮🇩 AI Salary Predictor & Geo-Intelligence")
+    gr.Markdown("Prediksi gaji menggunakan Scikit-learn Models + Database Wilayah BPS Indonesia.")
+    with gr.Row():
+        with gr.Column():
+            t1 = gr.Textbox(label="Posisi Pekerjaan", placeholder="Contoh: Guru, Driver, Manager")
+            t2 = gr.Textbox(label="Kabupaten / Kota", placeholder="Contoh: Simeulue, Surakarta, Malang")
+            model_selector = gr.Dropdown(
+                label="Pilih Model Prediksi",
+                choices=list(loaded_models.keys()),
+                value='Decision Tree' # Default selected model
+            )
+            btn = gr.Button("🔍 Analisis Sekarang", variant="primary")
+        with gr.Column():
+            out_html = gr.HTML(label="Hasil Analisis")
+    out_plot = gr.Plot(label="Grafik Komparasi")
+    btn.click(analisis_gaji_final, inputs=[t1, t2, model_selector], outputs=[out_html, out_plot])
+print("Menjalankan Aplikasi Final...")
+demo.launch(share=True, debug=True)