Spaces:

curiouscurrent
/

appliedai

Sleeping

App Files Files Community

curiouscurrent commited on Sep 26, 2025

Commit

2c59240

verified ·

1 Parent(s): 638b476

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -48

app.py CHANGED Viewed

@@ -5,9 +5,13 @@ import os
 import requests
 from functools import lru_cache
 JSON_FILE = "form-submissions-1.json"
 MODEL_ID = "HuggingFaceH4/sgpt-3.5-mini"
 HF_API_TOKEN = os.environ.get("HF_API_TOKEN")
 OUTPUT_FILE = "/tmp/outputs.csv"
 BATCH_SIZE = 50
@@ -15,11 +19,13 @@ if not HF_API_TOKEN:
     raise ValueError("HF_API_TOKEN not found in environment. Add it in Space Secrets.")
 CATEGORIES = {
-    "AI": ["AI/ML Ops Engineer","Senior Machine Learning Engineer","Principal Data Scientist",
-           "Senior Data Scientist","Machine Learning Research Scientist","Senior AI/ML Engineer",
-           "AI/ML Engineer","Big Data Engineer","AI Research Scientist","AI Research Analyst Consultant",
-           "AI Analyst","Senior Data Analyst","Automation Engineer","Senior Data Engineer",
-           "Machine Learning Engineer","Data Engineer","Data Scientist","Data Analyst"],
     "Marketing": ["Marketing Specialist","Sales Agent","Salesman","Sales Associate"],
     "CTO": ["Chief Technology Officer","CTO"],
     "Legal": ["Legal Specialist","Attorney","Legal Intern","Lawyer"],
@@ -56,11 +62,13 @@ Respond only 'Yes' if suitable, otherwise 'No'.
         return "No"
 # ----------------------------
-# Pre-filter JSON
 # ----------------------------
-def prefilter_candidates(category_name, job_titles):
     data = json.load(open(JSON_FILE, encoding="utf-8"))
     filtered = []
     for person in data:
         work_exps = person.get("work_experiences", [])
         if not work_exps:
@@ -69,15 +77,33 @@ def prefilter_candidates(category_name, job_titles):
         if not non_fullstack_roles:
             continue
         if any(role in job_titles for role in non_fullstack_roles):
-            filtered.append(person)
-    return filtered
 # ----------------------------
-# Process batch and save CSV
 # ----------------------------
-def process_category(category_name):
     job_titles = CATEGORIES[category_name]
-    filtered_candidates = prefilter_candidates(category_name, job_titles)
     recommended = []
     for i in range(0, len(filtered_candidates), BATCH_SIZE):
@@ -86,42 +112,27 @@ def process_category(category_name):
             candidate_str = json.dumps(person)
             response = call_llm(candidate_str, category_name, tuple(job_titles))
             if "Yes" in response:
-                work_exps = person.get("work_experiences", [])
-                non_fullstack_roles = [exp.get("roleName") for exp in work_exps if "full stack developer" not in exp.get("roleName","").lower()]
-                rec = {
-                    "Name": person.get("name"),
-                    "Email": person.get("email"),
-                    "Phone": person.get("phone"),
-                    "Location": person.get("location"),
-                    "Roles": ", ".join(non_fullstack_roles),
-                    "Skills": ", ".join(person.get("skills", [])),
-                    "Salary": person.get("annual_salary_expectation", {}).get("full-time","N/A"),
-                    "Category": category_name
-                }
-                recommended.append(rec)
-        # Save incrementally
-        if recommended:
-            df_temp = pd.DataFrame(recommended)
-            if os.path.exists(OUTPUT_FILE):
-                df_temp.to_csv(OUTPUT_FILE, mode="a", header=False, index=False)
-            else:
-                df_temp.to_csv(OUTPUT_FILE, index=False)
-    # Return top 5
-    df_all = pd.read_csv(OUTPUT_FILE)
-    df_cat = df_all[df_all["Category"]==category_name]
-    return df_cat.sort_values("Salary", ascending=False).head(5)
 # ----------------------------
-# Show first 5 JSON candidates
 # ----------------------------
 def show_first_candidates():
     data = json.load(open(JSON_FILE, encoding="utf-8"))
-    first_5 = data[:5]
-    return pd.DataFrame(first_5)
 # ----------------------------
-# Gradio UI
 # ----------------------------
 with gr.Blocks() as app:
     gr.Markdown("### Raw JSON Preview: First 5 Candidates")
@@ -129,15 +140,20 @@ with gr.Blocks() as app:
     gr.Markdown("---")
     category_dropdown = gr.Dropdown(list(CATEGORIES.keys()), label="Select Category")
-    run_button = gr.Button("Get Top 5 Recommended Candidates")
-    output_df = gr.Dataframe(label="Top 5 Recommended Candidates")
-    download_file = gr.File(label="Download CSV", file_types=[".csv"])
-    def run(category_name):
-        df_top5 = process_category(category_name)
-        return df_top5, OUTPUT_FILE
-    run_button.click(run, inputs=[category_dropdown], outputs=[output_df, download_file])
 if __name__ == "__main__":
     app.launch()

 import requests
 from functools import lru_cache
+# ----------------------------
+# CONFIG
+# ----------------------------
 JSON_FILE = "form-submissions-1.json"
 MODEL_ID = "HuggingFaceH4/sgpt-3.5-mini"
 HF_API_TOKEN = os.environ.get("HF_API_TOKEN")
+FILTERED_CSV = "/tmp/filtered_candidates.csv"
 OUTPUT_FILE = "/tmp/outputs.csv"
 BATCH_SIZE = 50
     raise ValueError("HF_API_TOKEN not found in environment. Add it in Space Secrets.")
 CATEGORIES = {
+    "AI": [
+        "AI/ML Ops Engineer","Senior Machine Learning Engineer","Principal Data Scientist",
+        "Senior Data Scientist","Machine Learning Research Scientist","Senior AI/ML Engineer",
+        "AI/ML Engineer","Big Data Engineer","AI Research Scientist","AI Research Analyst Consultant",
+        "AI Analyst","Senior Data Analyst","Automation Engineer","Senior Data Engineer",
+        "Machine Learning Engineer","Data Engineer","Data Scientist","Data Analyst"
+    ],
     "Marketing": ["Marketing Specialist","Sales Agent","Salesman","Sales Associate"],
     "CTO": ["Chief Technology Officer","CTO"],
     "Legal": ["Legal Specialist","Attorney","Legal Intern","Lawyer"],
         return "No"
 # ----------------------------
+# Filter by roles (step 1)
 # ----------------------------
+def filter_by_roles(category_name):
+    job_titles = CATEGORIES[category_name]
     data = json.load(open(JSON_FILE, encoding="utf-8"))
     filtered = []
     for person in data:
         work_exps = person.get("work_experiences", [])
         if not work_exps:
         if not non_fullstack_roles:
             continue
         if any(role in job_titles for role in non_fullstack_roles):
+            filtered.append({
+                "Name": person.get("name"),
+                "Email": person.get("email"),
+                "Phone": person.get("phone"),
+                "Location": person.get("location"),
+                "Roles": ", ".join(non_fullstack_roles),
+                "Skills": ", ".join(person.get("skills", [])),
+                "Salary": person.get("annual_salary_expectation", {}).get("full-time","N/A"),
+                "Category": category_name
+            })
+    if not filtered:
+        return pd.DataFrame(), None
+    df = pd.DataFrame(filtered)
+    df.to_csv(FILTERED_CSV, index=False)
+    return df, FILTERED_CSV
 # ----------------------------
+# LLM-based recommendations (step 2)
 # ----------------------------
+def llm_recommendations(category_name):
     job_titles = CATEGORIES[category_name]
+    if not os.path.exists(FILTERED_CSV):
+        return pd.DataFrame(), None
+    df = pd.read_csv(FILTERED_CSV)
+    filtered_candidates = df.to_dict(orient="records")
     recommended = []
     for i in range(0, len(filtered_candidates), BATCH_SIZE):
             candidate_str = json.dumps(person)
             response = call_llm(candidate_str, category_name, tuple(job_titles))
             if "Yes" in response:
+                recommended.append(person)
+    if not recommended:
+        return pd.DataFrame(), None
+    df_rec = pd.DataFrame(recommended)
+    df_rec["Salary_sort"] = df_rec["Salary"].apply(lambda s: float(s.replace("$","").replace(",","")) if isinstance(s,str) and s.startswith("$") else float('inf'))
+    df_rec = df_rec.sort_values("Salary_sort").drop(columns=["Salary_sort"])
+    df_rec = df_rec.head(5)
+    df_rec.to_csv(OUTPUT_FILE, index=False)
+    return df_rec, OUTPUT_FILE
 # ----------------------------
+# Show first 5 raw JSON candidates
 # ----------------------------
 def show_first_candidates():
     data = json.load(open(JSON_FILE, encoding="utf-8"))
+    return pd.DataFrame(data[:5])
 # ----------------------------
+# Gradio interface
 # ----------------------------
 with gr.Blocks() as app:
     gr.Markdown("### Raw JSON Preview: First 5 Candidates")
     gr.Markdown("---")
     category_dropdown = gr.Dropdown(list(CATEGORIES.keys()), label="Select Category")
+    # Step 1: Filter by roles
+    filter_button = gr.Button("Filter by Roles")
+    filtered_df = gr.Dataframe(label="Filtered Candidates by Roles")
+    download_filtered = gr.File(label="Download Filtered CSV", file_types=[".csv"])
+    filter_button.click(filter_by_roles, inputs=[category_dropdown], outputs=[filtered_df, download_filtered])
+    gr.Markdown("---")
+    # Step 2: LLM Recommendations
+    llm_button = gr.Button("Get LLM Recommendations")
+    llm_df = gr.Dataframe(label="Top 5 Recommended Candidates")
+    download_llm = gr.File(label="Download Recommendations CSV", file_types=[".csv"])
+    llm_button.click(llm_recommendations, inputs=[category_dropdown], outputs=[llm_df, download_llm])
 if __name__ == "__main__":
     app.launch()