Spaces:

riteshkokam
/

JobFinder

Sleeping

App Files Files Community

riteshkokam commited on Jun 21, 2025

Commit

23ea7fd

verified ·

1 Parent(s): f2cc98a

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -24

app.py CHANGED Viewed

@@ -10,9 +10,10 @@ from sklearn.metrics.pairwise import cosine_similarity
 from google import genai
 from google.genai.types import GenerateContentConfig, ThinkingConfig
 from datetime import datetime
 # Initialize components
-kw_extractor = yake.KeywordExtractor(n=2, top=20)
 embedder = SentenceTransformer("all-MiniLM-L6-v2")
 genai_client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))
@@ -32,12 +33,20 @@ def extract_text(file):
 # 2️⃣ Extract keywords using YAKE
 def extract_keywords(text):
-    """
-    Returns the top 20 1–2‑gram keywords from the text.
-    """
-    kws = kw_extractor.extract_keywords(text)
-    # kws is list of (keyword, score). We only want the keyword string.
-    return [kw for kw,score in kws]
 def on_resume_upload(file):
     text = extract_text(file)
@@ -75,12 +84,24 @@ def rank_jobs(resume_text, jobs):
     emb_r = embedder.encode([resume_text])
     emb_j = embedder.encode([j.get("description","") for j in jobs])
     sims = cosine_similarity(emb_r, emb_j)[0]
-    return sorted(zip(jobs, sims), key=lambda x: x[1], reverse=True)[:5]
 # 5️⃣ Gemini refinement (optional)
 def refine_with_ai(ranked, resume_text):
-    lines = "\n".join(f"- {j['title']} at {j.get('company', j.get('category', ''))}" for j, _ in ranked)
-    prompt = f"Resume:\n{resume_text[:500]}\n\nJobs:\n{lines}\n\nRank & justify each."
     resp = genai_client.models.generate_content(
         model="gemini-2.5-flash",
         contents=SYSTEM_PROMPT + prompt,
@@ -111,10 +132,10 @@ def find_jobs(file, added_kw, use_ai):
     for job, score in ranked:
         role     = job.get("title") or job.get("position", "")
         company  = job.get("company") or job.get("company_name", "")
-        location = job.get("location", "")
         # Normalize date (as we did before)
         posted   = format_posted(job)
-        apply_url= job.get("url") or job.get("apply_url","") or ""
         # Make sure none of these are dicts/lists
         table.append({
             "Role":     str(role),
@@ -128,19 +149,33 @@ def find_jobs(file, added_kw, use_ai):
     explanation = refine_with_ai(ranked, resume) if use_ai else ""
     return table, explanation
 # 7️⃣ Jobs in Markdown
-def jobs_to_markdown(table, explanation):
-    # Build the markdown table
-    md  = "| Role | Company | Location | Posted | Score | Apply |\n"
-    md += "| ---  | ------- | -------- | ------ | ----- | ----- |\n"
-    for row in table:
         link = f"[Apply]({row['Apply']})" if row['Apply'] else ""
         md += (
             f"| {row['Role']} | {row['Company']} | {row['Location']} "
             f"| {row['Posted']} | {row['Score']} | {link} |\n"
         )
-    # Append the AI explanation, if any
-    if explanation:
         md += "\n---\n**AI Explanation:**\n\n" + explanation
     return md
@@ -153,12 +188,35 @@ with gr.Blocks(theme=gr.themes.Base()) as demo:
     resume.upload(on_resume_upload, inputs=[resume], outputs=[added])
     use_ai = gr.Checkbox(label="Use AI to refine explanation", value=False)
-    btn = gr.Button("Find Jobs")
-    jobs_md = gr.Markdown()
-    btn.click(
-        fn=lambda f,k,ai: jobs_to_markdown(*find_jobs(f,k,ai)),
         inputs=[resume, added, use_ai],
-        outputs=[jobs_md]
     )
 if __name__ == "__main__":

 from google import genai
 from google.genai.types import GenerateContentConfig, ThinkingConfig
 from datetime import datetime
+import math
 # Initialize components
+kw_extractor = yake.KeywordExtractor(n=2, top=30)
 embedder = SentenceTransformer("all-MiniLM-L6-v2")
 genai_client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))
 # 2️⃣ Extract keywords using YAKE
 def extract_keywords(text):
+    # Remove the first line (often the candidate’s name/header)
+    parts = text.split("\n", 1)
+    body = parts[1] if len(parts) > 1 else text
+    # Extract 1–2‑gram keywords, top 20
+    kws = kw_extractor.extract_keywords(body)
+    # Filter out any that look like names or generic headers
+    filtered = []
+    for kw, score in kws:
+        # drop if any word is all-caps (e.g. "SUMMARY", "RITESH")
+        if any(w.isupper() and len(w) > 2 for w in kw.split()):
+            continue
+        filtered.append(kw)
+    return filtered
 def on_resume_upload(file):
     text = extract_text(file)
     emb_r = embedder.encode([resume_text])
     emb_j = embedder.encode([j.get("description","") for j in jobs])
     sims = cosine_similarity(emb_r, emb_j)[0]
+    return sorted(zip(jobs, sims), key=lambda x: x[1], reverse=True)
 # 5️⃣ Gemini refinement (optional)
 def refine_with_ai(ranked, resume_text):
+    lines = []
+    for job, _ in ranked:
+        title   = job.get("title") or job.get("position") or "N/A"
+        company = job.get("company") or job.get("company_name") or ""
+        loc     = job.get("location") or ""
+        lines.append(f"- {title} at {company} ({loc})")
+    prompt = (
+        f"Resume:\n{resume_text[:500]}\n\n"
+        "Here are the top matched jobs:\n" +
+        "\n".join(lines) +
+        "\n\nPlease rank these top to bottom and explain why each is a good match."
+    )
     resp = genai_client.models.generate_content(
         model="gemini-2.5-flash",
         contents=SYSTEM_PROMPT + prompt,
     for job, score in ranked:
         role     = job.get("title") or job.get("position", "")
         company  = job.get("company") or job.get("company_name", "")
+        location = job.get("location", "N/A")
         # Normalize date (as we did before)
         posted   = format_posted(job)
+        apply_url= job.get("url") or job.get("apply_url","") or job.get("joblink","") or ""
         # Make sure none of these are dicts/lists
         table.append({
             "Role":     str(role),
     explanation = refine_with_ai(ranked, resume) if use_ai else ""
     return table, explanation
+def paginate(table, page):
+    per_page = 10
+    start = (page-1)*per_page
+    return table[start:start+per_page]
 # 7️⃣ Jobs in Markdown
+def jobs_to_markdown(table, explanation, page, per_page=10):
+    total = len(table)
+    pages = max(1, math.ceil(total / per_page))
+    page = max(1, min(page, pages))
+    start = (page - 1) * per_page
+    end   = start + per_page
+    slice = table[start:end]
+    # Header
+    md  = f"**Showing jobs {start+1}–{min(end,total)} of {total} (Page {page}/{pages})**\n\n"
+    md += "| Role | Company | Location | Posted | Score | Apply |\n"
+    md += "| ---- | ------- | -------- | ------ | ----- | ----- |\n"
+    # Rows
+    for row in slice:
         link = f"[Apply]({row['Apply']})" if row['Apply'] else ""
         md += (
             f"| {row['Role']} | {row['Company']} | {row['Location']} "
             f"| {row['Posted']} | {row['Score']} | {link} |\n"
         )
+    # Append explanation *only* on page 1
+    if page == 1 and explanation:
         md += "\n---\n**AI Explanation:**\n\n" + explanation
     return md
     resume.upload(on_resume_upload, inputs=[resume], outputs=[added])
     use_ai = gr.Checkbox(label="Use AI to refine explanation", value=False)
+    find_btn = gr.Button("Find Jobs")
+    # hidden states for full data
+    jobs_state = gr.State([])
+    expl_state = gr.State("")
+    # outputs
+    md_out   = gr.Markdown()
+    page_sel = gr.Slider(1, 1, step=1, value=1, label="Page")
+    # 1) When "Find Jobs" is clicked:
+    #    - run find_jobs → (full_table, explanation)
+    #    - store in state, reset page to 1
+    find_btn.click(
+        fn=lambda f,k,ai: (*find_jobs(f,k,ai), 1),
         inputs=[resume, added, use_ai],
+        outputs=[jobs_state, expl_state, page_sel]
+    ).then(
+        #  render page 1 immediately
+        fn=lambda tbl, expl, pg: jobs_to_markdown(tbl, expl, pg),
+        inputs=[jobs_state, expl_state, page_sel],
+        outputs=md_out
+    )
+    # 2) When page changes, re‑render just the Markdown
+    page_sel.change(
+        fn=lambda tbl, expl, pg: jobs_to_markdown(tbl, expl, pg),
+        inputs=[jobs_state, expl_state, page_sel],
+        outputs=md_out
     )
 if __name__ == "__main__":