Spaces:

Geoeasy
/

CVchat

Running

App Files Files Community

Geoeasy commited on Jan 15

Commit

8d23077

verified ·

1 Parent(s): a4b10db

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -59

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import io
 import time
 import json
 from collections import Counter
-#
 import gradio as gr
 import numpy as np
 import faiss
@@ -73,7 +73,7 @@ index  = faiss.read_index(INDEX_FILE)
 chunks = np.load(CHUNKS_FILE, allow_pickle=True)
 # ========= Embeddings =========
-embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
 # (NEW) pré-cálculo de embedding médio do CV (para match score global)
 _cv_emb_mean = None
@@ -85,52 +85,80 @@ def _ensure_cv_mean():
     return _cv_emb_mean
 def retrieve_context(query: str, k: int = 4) -> str:
-    q_emb = embedding_model.encode([query], convert_to_numpy=True)
     _, I = index.search(q_emb, k)
     return "\n---\n".join(chunks[i] for i in I[0])
 # ========= Chat state =========
-dialog_history: list[tuple[str, str]] = []
 # ========= Helpers – NVIDIA chat =========
 def nv_stream(messages, temperature, top_p, max_tokens):
-    """Streaming para o chat principal."""
     assistant_reply = ""
     stream = client.chat.completions.create(
-        model=CHAT_MODEL, messages=messages,
-        temperature=temperature, top_p=top_p, max_tokens=max_tokens, stream=True
     )
     for chunk in stream:
-        delta = chunk.choices[0].delta
-        if hasattr(delta, "content") and delta.content:
-            assistant_reply += delta.content
             yield assistant_reply
 def nv_complete(messages, temperature, top_p, max_tokens) -> str:
     """Completa de uma vez (para PDFs e utilitários)."""
     resp = client.chat.completions.create(
-        model=CHAT_MODEL, messages=messages,
-        temperature=temperature, top_p=top_p, max_tokens=max_tokens, stream=False
     )
     return resp.choices[0].message.content.strip()
 # ========= PDF utils (NEW) =========
 def _to_pdf_bytes(title: str, body: str) -> bytes:
-    # usa um PDF mínimo sem dependências (texto simples em uma “folha”)
-    # para melhor tipografia, você pode trocar por reportlab.
     from reportlab.pdfgen import canvas
     from reportlab.lib.pagesizes import A4
     from reportlab.lib.utils import simpleSplit
     buf = io.BytesIO()
     c = canvas.Canvas(buf, pagesize=A4)
     w, h = A4
     margin = 50
     c.setTitle(title)
     c.setFont("Helvetica-Bold", 14)
     c.drawString(margin, h - margin, title)
     c.setFont("Helvetica", 11)
     y = h - margin - 30
     lines = simpleSplit(body, "Helvetica", 11, w - 2 * margin)
     for line in lines:
         if y < margin:
             c.showPage()
@@ -138,6 +166,7 @@ def _to_pdf_bytes(title: str, body: str) -> bytes:
             y = h - margin
         c.drawString(margin, y, line)
         y -= 15
     c.showPage()
     c.save()
     buf.seek(0)
@@ -156,23 +185,28 @@ def chatbot(user_input: str, temperature: float, top_p: float, max_tokens: int):
             "You are an assistant specialized in the candidate's CV. "
             "Use ONLY the retrieved context to answer. If you don't know, say you don't know.\n\n"
             f"=== Retrieved Context ===\n{context}\n\n"
-        )
     }
-    messages = [system_msg]
-    for u, a in dialog_history:
-        messages.extend([{"role": "user", "content": u}, {"role": "assistant", "content": a}])
-    messages.append({"role": "user", "content": user_input})
-    # Stream ( mantém UX atual )
     reply_full = ""
     try:
         for partial in nv_stream(messages, temperature, top_p, max_tokens):
             reply_full = partial
-        dialog_history.append((user_input, reply_full))
     except OpenAIError as e:
         reply_full = f"⚠️ API Error: {e.__class__.__name__}: {e}"
-        dialog_history.append((user_input, reply_full))
     return dialog_history, ""
@@ -185,13 +219,13 @@ def clear_history():
 MINI_BIO_STYLES = {
     "Acadêmico": "Estilo acadêmico, objetivo, cite publicações/projetos e área de pesquisa.",
     "Corporativo": "Tom profissional para negócios, destaque resultados, KPIs e liderança.",
-    "Pitch curto": "3-4 frases diretas, chamando atenção para conquistas-chave."
 }
 def generate_mini_bio(style_key: str, temperature: float, top_p: float, max_tokens: int):
     if style_key not in MINI_BIO_STYLES:
         return None, "Selecione um formato de mini-bio."
-    # usa os top contextos “genéricos”: consulta neutra para cobrir o CV
     context = retrieve_context("resumo do currículo, principais resultados e tecnologias", k=8)
     system_msg = {
         "role": "system",
@@ -199,12 +233,13 @@ def generate_mini_bio(style_key: str, temperature: float, top_p: float, max_toke
             "Use apenas o contexto do CV para gerar uma mini-bio. "
             "Não invente fatos. Seja fiel ao conteúdo.\n\n"
             f"=== Contexto do CV ===\n{context}\n"
-        )
     }
     user_msg = {
         "role": "user",
-        "content": f"Produza uma mini-bio em português. Estilo: {MINI_BIO_STYLES[style_key]} (150-220 palavras)."
     }
     try:
         text = nv_complete([system_msg, user_msg], temperature, top_p, max_tokens)
         pdf_bytes = _to_pdf_bytes(f"Mini-bio ({style_key})", text)
@@ -219,6 +254,7 @@ def generate_mini_bio(style_key: str, temperature: float, top_p: float, max_toke
 def generate_cover_letter(job_desc: str, temperature: float, top_p: float, max_tokens: int):
     if not job_desc or not job_desc.strip():
         return None, "Cole a descrição da vaga primeiro."
     context = retrieve_context(job_desc, k=8)
     sys = {
         "role": "system",
@@ -226,9 +262,13 @@ def generate_cover_letter(job_desc: str, temperature: float, top_p: float, max_t
             "Gere uma carta de motivação baseada SOMENTE no CV (contexto) e na vaga. "
             "Inclua 2-3 conquistas mensuráveis e tecnologias relevantes. 250-350 palavras.\n\n"
             f"=== Contexto (CV) ===\n{context}\n"
-        )
     }
-    usr = {"role": "user", "content": f"Descrição da vaga:\n{job_desc}\n\nGerar carta em PT-BR/PT-PT, tom profissional."}
     try:
         text = nv_complete([sys, usr], temperature, top_p, max_tokens)
         pdf_bytes = _to_pdf_bytes("Carta de Motivação", text)
@@ -250,8 +290,8 @@ def compute_match_score(job_desc: str):
     # Similaridade global
     cv_mean = _ensure_cv_mean()
     job_emb = embedding_model.encode([job_desc], convert_to_numpy=True, normalize_embeddings=True)[0]
-    sim = float(np.dot(cv_mean, job_emb))  # [-1,1] com embs normalizados
-    sim_norm = max(0.0, min(1.0, (sim + 1) / 2))  # → [0,1]
     # Requisitos/cobertura (heurística simples)
     req_tokens = re.findall(r"[a-zA-ZÀ-ÿ0-9\-\+#\.]{3,}", job_desc.lower())
@@ -261,7 +301,7 @@ def compute_match_score(job_desc: str):
     retrieved = retrieve_context(job_desc, k=8).lower()
     hits = sum(1 for w in most_common if w in retrieved)
-    coverage = hits / max(1, len(most_common))  # [0,1]
     score = int(round(100 * (0.6 * sim_norm + 0.4 * coverage)))
     explain = (
@@ -272,30 +312,30 @@ def compute_match_score(job_desc: str):
     return explain
 # ========= (NEW) Métricas do CV =========
-TECH_HINTS = ["python","r","faiss","qdrant","pytorch","tensorflow","scikit","gradio","streamlit",
-              "gis","qgis","gdal","grass","sentinel","landsat","process mining","rag","vit","mask2former"]
-COUNTRY_HINTS = ["portugal","brasil","germany","alemanh", "spain","espanha","europe","europa","france","italy","uk","usa"]
 def extract_metrics():
     text_all = " \n".join(map(str, chunks))
-    # Publicações aproximadas: procura palavras-chave
     pubs = len(re.findall(r"\b(publica(?:ç(?:ões|ao|ão)|dos?)|paper|article|artigo|ieee|springer|acm)\b", text_all, flags=re.I))
-    # Anos presentes (para dar noção de linha do tempo)
     years = sorted(set(re.findall(r"\b(20\d{2}|19\d{2})\b", text_all)))
-    # Tecnologias (contagem simples)
     tech_counts = {t: len(re.findall(re.escape(t), text_all, flags=re.I)) for t in TECH_HINTS}
-    top_tech = sorted([k for k,v in tech_counts.items() if v>0], key=lambda k: tech_counts[k], reverse=True)[:8]
-    # Presença internacional
     intl_hits = sum(len(re.findall(c, text_all, flags=re.I)) for c in COUNTRY_HINTS)
     md = [
         "### Métricas do CV (estimativas)\n",
         f"- **Publicações (sinalizadas)**: ~{pubs}",
-        f"- **Anos mencionados**: {', '.join(years[:12])}{'…' if len(years)>12 else ''}",
         f"- **Tecnologias mais citadas**: {', '.join(top_tech) if top_tech else '—'}",
         f"- **Menções internacionais**: ~{intl_hits}",
-        "\n> Observação: estimativas baseadas em busca por palavras-chave nos trechos indexados."
     ]
     return "\n".join(md)
@@ -314,15 +354,15 @@ with gr.Blocks(title=APP_TITLE, css=custom_css, theme=gr.themes.Base()) as demo:
     with gr.Row():
         # Main chat
         with gr.Column(scale=3):
-            chatbot_ui   = gr.Chatbot(type="tuples", elem_id="chat-window")
-            txt          = gr.Textbox(placeholder="Digite sua pergunta…", lines=2)
-            btn_send     = gr.Button("Enviar", variant="primary")
-            btn_clear    = gr.Button("Limpar")
             with gr.Accordion("Parâmetros avançados", open=False):
                 temperature = gr.Slider(0, 1, value=0.6, label="Temperature")
-                top_p       = gr.Slider(0, 1, value=0.95, label="Top-p")
-                max_tokens  = gr.Slider(64, 2048, value=512, step=64, label="Max Tokens")
             btn_send.click(chatbot, [txt, temperature, top_p, max_tokens], [chatbot_ui, txt])
             txt.submit(chatbot, [txt, temperature, top_p, max_tokens], [chatbot_ui, txt])
@@ -337,7 +377,6 @@ with gr.Blocks(title=APP_TITLE, css=custom_css, theme=gr.themes.Base()) as demo:
             for q in SUGGESTION_QUESTIONS:
                 gr.Button(q).click(lambda suggestion=q: suggestion, outputs=[txt])
-            # (NEW) sugestões por tema
             gr.Markdown("---")
             gr.Markdown("### Sugestões por tema")
             for theme, qs in SUGGESTIONS_THEMES.items():
@@ -345,34 +384,32 @@ with gr.Blocks(title=APP_TITLE, css=custom_css, theme=gr.themes.Base()) as demo:
                     for q in qs:
                         gr.Button(q).click(lambda s=q: s, outputs=[txt])
-            # (NEW) Mini-bios
             gr.Markdown("---")
             gr.Markdown("### Exportação rápida – Mini-bio (PDF)")
             bio_style = gr.Dropdown(choices=list(MINI_BIO_STYLES.keys()), value="Corporativo", label="Formato")
-            btn_bio   = gr.Button("Gerar Mini-bio (PDF)")
-            bio_file  = gr.File(label="Mini-bio gerada")
-            bio_msg   = gr.Markdown()
             btn_bio.click(generate_mini_bio, [bio_style, temperature, top_p, max_tokens], [bio_file, bio_msg])
-            # (NEW) Assistente de candidatura
             gr.Markdown("---")
             gr.Markdown("### Assistente de candidatura")
-            job_desc  = gr.Textbox(label="Cole a descrição da vaga", lines=8, placeholder="Cole aqui a JD…")
             with gr.Row():
                 btn_cover = gr.Button("Gerar Carta (PDF)")
                 btn_match = gr.Button("Calcular Match Score")
             cover_file = gr.File(label="Carta gerada")
-            cover_msg  = gr.Markdown()
-            match_out  = gr.Markdown()
             btn_cover.click(generate_cover_letter, [job_desc, temperature, top_p, max_tokens], [cover_file, cover_msg])
             btn_match.click(lambda jd: compute_match_score(jd), [job_desc], [match_out])
-            # (NEW) Métricas do CV
             gr.Markdown("---")
             gr.Markdown("### Métricas do CV")
             btn_metrics = gr.Button("Recalcular métricas")
-            metrics_md  = gr.Markdown(value=extract_metrics())
             btn_metrics.click(lambda: extract_metrics(), [], [metrics_md])
             gr.Markdown("---")

 import time
 import json
 from collections import Counter
 import gradio as gr
 import numpy as np
 import faiss
 chunks = np.load(CHUNKS_FILE, allow_pickle=True)
 # ========= Embeddings =========
+embedding_model = SentenceTransformer("all-MiniLM-L6-v2")
 # (NEW) pré-cálculo de embedding médio do CV (para match score global)
 _cv_emb_mean = None
     return _cv_emb_mean
 def retrieve_context(query: str, k: int = 4) -> str:
+    q_emb = embedding_model.encode([query], convert_to_numpy=True, normalize_embeddings=True)
     _, I = index.search(q_emb, k)
     return "\n---\n".join(chunks[i] for i in I[0])
 # ========= Chat state =========
+# Agora no formato OpenAI-style, compatível com gr.Chatbot(type="messages")
+dialog_history: list[dict] = []
 # ========= Helpers – NVIDIA chat =========
 def nv_stream(messages, temperature, top_p, max_tokens):
+    """Streaming robusto (evita chunk sem choices e delta sem content)."""
     assistant_reply = ""
     stream = client.chat.completions.create(
+        model=CHAT_MODEL,
+        messages=messages,
+        temperature=temperature,
+        top_p=top_p,
+        max_tokens=max_tokens,
+        stream=True,
     )
     for chunk in stream:
+        # Alguns chunks podem vir sem "choices" (keep-alive / metadados)
+        choices = getattr(chunk, "choices", None)
+        if not choices:
+            continue
+        if len(choices) == 0:
+            continue
+        choice0 = choices[0]
+        delta = getattr(choice0, "delta", None)
+        if delta is None:
+            continue
+        content = getattr(delta, "content", None)
+        if content:
+            assistant_reply += content
             yield assistant_reply
+        finish_reason = getattr(choice0, "finish_reason", None)
+        if finish_reason in ("stop", "length"):
+            break
 def nv_complete(messages, temperature, top_p, max_tokens) -> str:
     """Completa de uma vez (para PDFs e utilitários)."""
     resp = client.chat.completions.create(
+        model=CHAT_MODEL,
+        messages=messages,
+        temperature=temperature,
+        top_p=top_p,
+        max_tokens=max_tokens,
+        stream=False,
     )
     return resp.choices[0].message.content.strip()
 # ========= PDF utils (NEW) =========
 def _to_pdf_bytes(title: str, body: str) -> bytes:
     from reportlab.pdfgen import canvas
     from reportlab.lib.pagesizes import A4
     from reportlab.lib.utils import simpleSplit
     buf = io.BytesIO()
     c = canvas.Canvas(buf, pagesize=A4)
     w, h = A4
     margin = 50
     c.setTitle(title)
     c.setFont("Helvetica-Bold", 14)
     c.drawString(margin, h - margin, title)
     c.setFont("Helvetica", 11)
     y = h - margin - 30
     lines = simpleSplit(body, "Helvetica", 11, w - 2 * margin)
     for line in lines:
         if y < margin:
             c.showPage()
             y = h - margin
         c.drawString(margin, y, line)
         y -= 15
     c.showPage()
     c.save()
     buf.seek(0)
             "You are an assistant specialized in the candidate's CV. "
             "Use ONLY the retrieved context to answer. If you don't know, say you don't know.\n\n"
             f"=== Retrieved Context ===\n{context}\n\n"
+        ),
     }
+    # mensagens = system + histórico + user
+    messages = [system_msg] + dialog_history + [{"role": "user", "content": user_input}]
     reply_full = ""
     try:
         for partial in nv_stream(messages, temperature, top_p, max_tokens):
             reply_full = partial
+        dialog_history.extend([
+            {"role": "user", "content": user_input},
+            {"role": "assistant", "content": reply_full},
+        ])
     except OpenAIError as e:
         reply_full = f"⚠️ API Error: {e.__class__.__name__}: {e}"
+        dialog_history.extend([
+            {"role": "user", "content": user_input},
+            {"role": "assistant", "content": reply_full},
+        ])
     return dialog_history, ""
 MINI_BIO_STYLES = {
     "Acadêmico": "Estilo acadêmico, objetivo, cite publicações/projetos e área de pesquisa.",
     "Corporativo": "Tom profissional para negócios, destaque resultados, KPIs e liderança.",
+    "Pitch curto": "3-4 frases diretas, chamando atenção para conquistas-chave.",
 }
 def generate_mini_bio(style_key: str, temperature: float, top_p: float, max_tokens: int):
     if style_key not in MINI_BIO_STYLES:
         return None, "Selecione um formato de mini-bio."
     context = retrieve_context("resumo do currículo, principais resultados e tecnologias", k=8)
     system_msg = {
         "role": "system",
             "Use apenas o contexto do CV para gerar uma mini-bio. "
             "Não invente fatos. Seja fiel ao conteúdo.\n\n"
             f"=== Contexto do CV ===\n{context}\n"
+        ),
     }
     user_msg = {
         "role": "user",
+        "content": f"Produza uma mini-bio em português. Estilo: {MINI_BIO_STYLES[style_key]} (150-220 palavras).",
     }
     try:
         text = nv_complete([system_msg, user_msg], temperature, top_p, max_tokens)
         pdf_bytes = _to_pdf_bytes(f"Mini-bio ({style_key})", text)
 def generate_cover_letter(job_desc: str, temperature: float, top_p: float, max_tokens: int):
     if not job_desc or not job_desc.strip():
         return None, "Cole a descrição da vaga primeiro."
     context = retrieve_context(job_desc, k=8)
     sys = {
         "role": "system",
             "Gere uma carta de motivação baseada SOMENTE no CV (contexto) e na vaga. "
             "Inclua 2-3 conquistas mensuráveis e tecnologias relevantes. 250-350 palavras.\n\n"
             f"=== Contexto (CV) ===\n{context}\n"
+        ),
+    }
+    usr = {
+        "role": "user",
+        "content": f"Descrição da vaga:\n{job_desc}\n\nGerar carta em PT-BR/PT-PT, tom profissional.",
     }
     try:
         text = nv_complete([sys, usr], temperature, top_p, max_tokens)
         pdf_bytes = _to_pdf_bytes("Carta de Motivação", text)
     # Similaridade global
     cv_mean = _ensure_cv_mean()
     job_emb = embedding_model.encode([job_desc], convert_to_numpy=True, normalize_embeddings=True)[0]
+    sim = float(np.dot(cv_mean, job_emb))  # [-1,1]
+    sim_norm = max(0.0, min(1.0, (sim + 1) / 2))  # [0,1]
     # Requisitos/cobertura (heurística simples)
     req_tokens = re.findall(r"[a-zA-ZÀ-ÿ0-9\-\+#\.]{3,}", job_desc.lower())
     retrieved = retrieve_context(job_desc, k=8).lower()
     hits = sum(1 for w in most_common if w in retrieved)
+    coverage = hits / max(1, len(most_common))
     score = int(round(100 * (0.6 * sim_norm + 0.4 * coverage)))
     explain = (
     return explain
 # ========= (NEW) Métricas do CV =========
+TECH_HINTS = [
+    "python","r","faiss","qdrant","pytorch","tensorflow","scikit","gradio","streamlit",
+    "gis","qgis","gdal","grass","sentinel","landsat","process mining","rag","vit","mask2former"
+]
+COUNTRY_HINTS = ["portugal","brasil","germany","alemanh","spain","espanha","europe","europa","france","italy","uk","usa"]
 def extract_metrics():
     text_all = " \n".join(map(str, chunks))
     pubs = len(re.findall(r"\b(publica(?:ç(?:ões|ao|ão)|dos?)|paper|article|artigo|ieee|springer|acm)\b", text_all, flags=re.I))
     years = sorted(set(re.findall(r"\b(20\d{2}|19\d{2})\b", text_all)))
     tech_counts = {t: len(re.findall(re.escape(t), text_all, flags=re.I)) for t in TECH_HINTS}
+    top_tech = sorted([k for k,v in tech_counts.items() if v > 0], key=lambda k: tech_counts[k], reverse=True)[:8]
     intl_hits = sum(len(re.findall(c, text_all, flags=re.I)) for c in COUNTRY_HINTS)
     md = [
         "### Métricas do CV (estimativas)\n",
         f"- **Publicações (sinalizadas)**: ~{pubs}",
+        f"- **Anos mencionados**: {', '.join(years[:12])}{'…' if len(years) > 12 else ''}",
         f"- **Tecnologias mais citadas**: {', '.join(top_tech) if top_tech else '—'}",
         f"- **Menções internacionais**: ~{intl_hits}",
+        "\n> Observação: estimativas baseadas em busca por palavras-chave nos trechos indexados.",
     ]
     return "\n".join(md)
     with gr.Row():
         # Main chat
         with gr.Column(scale=3):
+            chatbot_ui = gr.Chatbot(type="messages", elem_id="chat-window")
+            txt = gr.Textbox(placeholder="Digite sua pergunta…", lines=2)
+            btn_send = gr.Button("Enviar", variant="primary")
+            btn_clear = gr.Button("Limpar")
             with gr.Accordion("Parâmetros avançados", open=False):
                 temperature = gr.Slider(0, 1, value=0.6, label="Temperature")
+                top_p = gr.Slider(0, 1, value=0.95, label="Top-p")
+                max_tokens = gr.Slider(64, 2048, value=512, step=64, label="Max Tokens")
             btn_send.click(chatbot, [txt, temperature, top_p, max_tokens], [chatbot_ui, txt])
             txt.submit(chatbot, [txt, temperature, top_p, max_tokens], [chatbot_ui, txt])
             for q in SUGGESTION_QUESTIONS:
                 gr.Button(q).click(lambda suggestion=q: suggestion, outputs=[txt])
             gr.Markdown("---")
             gr.Markdown("### Sugestões por tema")
             for theme, qs in SUGGESTIONS_THEMES.items():
                     for q in qs:
                         gr.Button(q).click(lambda s=q: s, outputs=[txt])
             gr.Markdown("---")
             gr.Markdown("### Exportação rápida – Mini-bio (PDF)")
             bio_style = gr.Dropdown(choices=list(MINI_BIO_STYLES.keys()), value="Corporativo", label="Formato")
+            btn_bio = gr.Button("Gerar Mini-bio (PDF)")
+            bio_file = gr.File(label="Mini-bio gerada")
+            bio_msg = gr.Markdown()
             btn_bio.click(generate_mini_bio, [bio_style, temperature, top_p, max_tokens], [bio_file, bio_msg])
             gr.Markdown("---")
             gr.Markdown("### Assistente de candidatura")
+            job_desc = gr.Textbox(label="Cole a descrição da vaga", lines=8, placeholder="Cole aqui a JD…")
             with gr.Row():
                 btn_cover = gr.Button("Gerar Carta (PDF)")
                 btn_match = gr.Button("Calcular Match Score")
             cover_file = gr.File(label="Carta gerada")
+            cover_msg = gr.Markdown()
+            match_out = gr.Markdown()
             btn_cover.click(generate_cover_letter, [job_desc, temperature, top_p, max_tokens], [cover_file, cover_msg])
             btn_match.click(lambda jd: compute_match_score(jd), [job_desc], [match_out])
             gr.Markdown("---")
             gr.Markdown("### Métricas do CV")
             btn_metrics = gr.Button("Recalcular métricas")
+            metrics_md = gr.Markdown(value=extract_metrics())
             btn_metrics.click(lambda: extract_metrics(), [], [metrics_md])
             gr.Markdown("---")