Spaces:

Simrandhiman
/

customer-segmentation

Runtime error

App Files Files Community

Simrandhiman commited on Dec 3, 2025

Commit

3ff843f

verified ·

1 Parent(s): 9836d6f

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -38

app.py CHANGED Viewed

@@ -1,67 +1,74 @@
-# app.py
-# Simple Gradio interface: upload CSV -> run pipeline -> show clusters + sample customers
 import gradio as gr
 import pandas as pd
 import numpy as np
 import os
-import subprocess
 from data_prep import load_data, basic_clean, feature_engineer, prepare_features
 from embed import build_text_for_embedding, embed_texts
 from clustering import reduce_and_cluster
 def run_pipeline(uploaded_csv, k=6, use_hdbscan=False):
-# save upload
-csv_path = 'data/uploaded.csv'
-os.makedirs('data', exist_ok=True)
-uploaded_csv.save(csv_path)
-df = load_data(csv_path)
-df = basic_clean(df)
-df = feature_engineer(df)
-features = prepare_features(df)
-texts = build_text_for_embedding(df)
-embs = embed_texts(texts)
-labels, arts = reduce_and_cluster(embs, k=int(k), use_hdbscan=use_hdbscan)
-df['cluster'] = labels
-# return simple summary
-summary = df.groupby('cluster').agg({'customer_id':'count'}).to_dict()
-sample = df.groupby('cluster').head(3).to_dict(orient='records')
-return f"Clusters created: {len(set(labels))}", pd.DataFrame(sample)
-def main():
-with gr.Blocks() as demo:
-gr.Markdown('# Customer Segmentation — Hugging Face Space')
-with gr.Row():
-csv_in = gr.File(label='Upload customers CSV')
-k = gr.Slider(minimum=2, maximum=20, step=1, label='K (for KMeans)')
-use_hdbscan = gr.Checkbox(label='Use HDBSCAN (instead of KMeans)')
-out_text = gr.Textbox()
-out_table = gr.Dataframe()
-run_btn = gr.Button('Run pipeline')
-run_btn.click(fn=run_pipeline, inputs=[csv_in, k, use_hdbscan], outputs=[out_text, out_table])
-demo.launch()
-if __name__ == '__main__':
-main()

 import gradio as gr
 import pandas as pd
 import numpy as np
 import os
 from data_prep import load_data, basic_clean, feature_engineer, prepare_features
 from embed import build_text_for_embedding, embed_texts
 from clustering import reduce_and_cluster
 def run_pipeline(uploaded_csv, k=6, use_hdbscan=False):
+    # create data folder
+    os.makedirs("data", exist_ok=True)
+    # save uploaded CSV
+    csv_path = "data/uploaded.csv"
+    uploaded_csv.save(csv_path)
+    # load & preprocess
+    df = load_data(csv_path)
+    df = basic_clean(df)
+    df = feature_engineer(df)
+    features = prepare_features(df)
+    # text embedding
+    texts = build_text_for_embedding(df)
+    embs = embed_texts(texts)
+    # clustering
+    labels, arts = reduce_and_cluster(
+        embs,
+        k=int(k),
+        use_hdbscan=use_hdbscan
+    )
+    df["cluster"] = labels
+    # summary
+    summary_text = f"Clusters created: {len(set(labels))}"
+    # sample customers
+    sample_df = df.groupby("cluster").head(3)
+    return summary_text, sample_df
+def main():
+    with gr.Blocks() as demo:
+        gr.Markdown("# Customer Segmentation — Hugging Face Space")
+        with gr.Row():
+            csv_in = gr.File(label="Upload Customer CSV (required)")
+            k = gr.Slider(2, 20, value=6, step=1, label="K (for KMeans)")
+        use_hdbscan = gr.Checkbox(label="Use HDBSCAN instead of KMeans")
+        out_text = gr.Textbox(label="Output Summary")
+        out_table = gr.Dataframe(label="Sample Clustered Rows")
+        run_btn = gr.Button("Run Segmentation")
+        run_btn.click(
+            fn=run_pipeline,
+            inputs=[csv_in, k, use_hdbscan],
+            outputs=[out_text, out_table]
+        )
+    demo.launch()
+if __name__ == "__main__":
+    main()