Spaces:

QuentinL52
/

cv_parser

Running

File size: 19,389 Bytes

"""
Orchestrateur CV enrichi avec 3 phases :
  Phase 1  : Découpage du CV en sections (cv_splitter)
  Phase 2  : Extraction parallèle (8 agents)
  Phase 3a : Analyse d'en-tête (run_header_analysis) — tourne en // avec Phase 2
  Phase 3b : Analyse & Recommandation — 3 agents en parallèle après Phase 2 + 3a

Flux optimisé : Phase 1 → (Phase 2 // Phase 3a) → Phase 3b
Produit un JSON en 2 parties : candidat + recommandations.
"""

import json
import logging
import os
import yaml
import asyncio
from datetime import datetime
from typing import Dict, Any, List

from crewai import Agent, Task, Crew, Process
from src.config.app_config import get_small_llm, get_big_llm

logger = logging.getLogger(__name__)

#_____________________________________________________________________________________

class CVAgentOrchestrator:
    """Orchestrateur multi-agents pour le parsing et l'analyse de CV."""

    def __init__(self):
        self.llm = get_small_llm()
        self.big_llm = get_big_llm()
        self.agents_config = self._load_yaml("agents.yaml")
        self.tasks_config = self._load_yaml("tasks.yaml")
        self.metiers_data = self._load_metiers()
        self._create_agents()

    def _load_yaml(self, filename: str) -> Dict:
        base_path = os.path.dirname(os.path.dirname(__file__))
        config_path = os.path.join(base_path, "config", filename)
        with open(config_path, "r", encoding="utf-8") as f:
            return yaml.safe_load(f)

    def _load_metiers(self) -> List[Dict]:
        """Charge le référentiel de métiers (avec embeddings)."""
        base_path = os.path.dirname(os.path.dirname(__file__))
        metiers_path = os.path.join(base_path, "data", "metiers.json")
        with open(metiers_path, "r", encoding="utf-8") as f:
            data = json.load(f)
        return data.get("metiers", [])

    def _create_agents(self):
        def make_agent(name, llm_override=None):
            return Agent(
                config=self.agents_config[name],
                llm=llm_override or self.llm,
                allow_delegation=False,
                verbose=True,
                max_iter=1,
                respect_context_window=True,
            )

        self.cv_splitter = make_agent("cv_splitter")
        self.skills_extractor = make_agent("skills_extractor")
        self.experience_extractor = make_agent("experience_extractor")
        self.project_extractor = make_agent("project_extractor")
        self.education_extractor = make_agent("education_extractor")
        self.reconversion_detector = make_agent("reconversion_detector")
        self.language_extractor = make_agent("language_extractor")
        self.etudiant_detector = make_agent("etudiant_detector")
        self.identity_extractor = make_agent("identity_extractor")

        self.header_analyzer = make_agent("header_analyzer")
        self.metier_matcher = make_agent("metier_matcher")
        self.cv_quality_checker = make_agent("cv_quality_checker", llm_override=self.big_llm)
        self.project_analyzer = make_agent("project_analyzer", llm_override=self.big_llm)

    # ──────────────────────────────────────────────
    # PHASE 1 : Découpage du CV en sections
    # ──────────────────────────────────────────────

    async def split_cv_sections(self, cv_content: str, cv_raw_start: str = "") -> Dict[str, str]:
        """Découpe le CV en sections via l'agent cv_splitter."""
        task_config = self.tasks_config["split_cv_task"].copy()
        # Échapper les accolades dans le contenu CV pour éviter les erreurs de format
        safe_content = cv_content[:20000].replace("{", "{{").replace("}", "}}")
        safe_raw = cv_raw_start[:2000].replace("{", "{{").replace("}", "}}")
        task_config["description"] = task_config["description"].format(
            cv_content=safe_content,
            cv_raw_start=safe_raw,
        )

        task = Task(config=task_config, agent=self.cv_splitter)
        crew = Crew(
            agents=[self.cv_splitter],
            tasks=[task],
            process=Process.sequential,
            verbose=False,
        )
        result = await crew.kickoff_async()
        parsed = self._parse_json_output(result, default_structure={})
        return parsed

    # ──────────────────────────────────────────────
    # PHASE 2 : Extraction et Analyse Parallèles
    # ──────────────────────────────────────────────

    async def run_all_agents(
        self, sections: Dict[str, str], cv_raw_start: str = "", cv_full_text: str = "", file_name: str = "", page_count: int = 1
    ) -> Dict[str, Any]:
        """Exécute toutes les tâches d'extraction et d'analyse en parallèle."""
        
        raw_header = sections.get("header", "")
        raw_experiences = sections.get("experiences", "")
        raw_projects = sections.get("projects", "")
        raw_skills = sections.get("skills", "")
        raw_education = sections.get("education", "")
        raw_languages = sections.get("languages", "")
        safe_cv_raw = cv_raw_start[:2000].replace("{", "{{").replace("}", "}}")
        safe_header = raw_header.replace("{", "{{").replace("}", "}}")

        from src.services.metier_pre_filter import get_top_k_metiers
        top_metiers = get_top_k_metiers(
            metiers_data=self.metiers_data,
            experiences_summary=raw_experiences[:2000],
            projects_summary=raw_projects[:2000],
            hard_skills=raw_skills[:2000],
            soft_skills="",
            k=3
        )
        metiers_reference = self._prepare_metiers_for_prompt(top_metiers)

        def create_task_async(task_key, agent, **kwargs):
            t_config = self.tasks_config[task_key].copy()
            t_description = t_config["description"]
            try:
                t_config["description"] = t_description.format(**kwargs)
            except KeyError as e:
                logger.warning(f"KeyError formatting task '{task_key}': {e}. Falling back to manual replace.")
                desc = t_description
                for k, v in kwargs.items():
                    placeholder = "{" + k + "}"
                    if placeholder in desc:
                        desc = desc.replace(placeholder, str(v))
                t_config["description"] = desc
            except Exception as e:
                logger.error(f"Unexpected error formatting task '{task_key}': {e}")
            
            task = Task(config=t_config, agent=agent)
            c = Crew(agents=[agent], tasks=[task], verbose=False)
            return (task_key, c.kickoff_async())

        tasks_def = [
            ("skills_task", self.skills_extractor, {"experiences": raw_experiences, "projects": raw_projects, "skills": raw_skills, "education": raw_education}),
            ("experience_task", self.experience_extractor, {"experiences": raw_experiences}),
            ("project_task", self.project_extractor, {"projects": raw_projects}),
            ("education_task", self.education_extractor, {"education": raw_education}),
            ("reconversion_task", self.reconversion_detector, {"experiences": raw_experiences, "education": raw_education}),
            ("language_task", self.language_extractor, {"languages": raw_languages, "cv_raw_start": cv_raw_start[:500]}),
            ("etudiant_task", self.etudiant_detector, {"education": raw_education, "current_date": datetime.now().strftime("%Y-%m-%d")}),
            ("identity_task", self.identity_extractor, {"header": raw_header, "cv_raw_start": cv_raw_start[:1500], "file_name": file_name}),
            ("poste_visé_task", self.header_analyzer, {"header": safe_header, "cv_raw_start": safe_cv_raw}),
            ("cv_quality_task", self.cv_quality_checker, {
                "header": safe_header,
                "page_count": page_count,
                "cv_full_text": cv_full_text[:6000],
                "cv_raw_start": safe_cv_raw,
                "skills": raw_skills[:2000],
                "experiences": raw_experiences[:3000],
                "projects": raw_projects[:2000],
                "education": raw_education[:2000],
            }),
            ("metier_matching_task", self.metier_matcher, {
                "header": safe_header,
                "skills": raw_skills[:2000],
                "experiences": raw_experiences[:3000],
                "projects": raw_projects[:2000],
                "education": raw_education[:2000],
                "metiers_reference": metiers_reference,
            }),
            ("project_analysis_task", self.project_analyzer, {
                "header": safe_header,
                "projects": raw_projects[:3000],
            }),
        ]

        task_coroutines = [create_task_async(key, agent, **kwargs) for key, agent, kwargs in tasks_def]
        keys = [t[0] for t in task_coroutines]
        coroutines = [t[1] for t in task_coroutines]
        results_list = await asyncio.gather(*coroutines, return_exceptions=True)

        results_map = {}
        for key, result in zip(keys, results_list):
            if isinstance(result, Exception):
                logger.error(f"Task '{key}' failed: {result}")
            else:
                results_map[key] = result

        return self._build_final_json(results_map)

    def _build_final_json(self, results_map: Dict[str, Any]) -> Dict[str, Any]:
        """Agrège les résultats de toutes les tâches en un JSON final."""
        
        def get_parsed(key, default=None):
            if key not in results_map:
                return default
            return self._parse_json_output(results_map[key], default)

        # Extraction
        competences = get_parsed("skills_task", {"hard_skills": [], "soft_skills": []})
        experiences = get_parsed("experience_task", [])
        projets = get_parsed("project_task", {"professional": [], "personal": []})
        formations = get_parsed("education_task", [])
        reconversion = get_parsed("reconversion_task", {}).get("reconversion_analysis", {})
        etudiant_data = get_parsed("etudiant_task", {}).get("etudiant_analysis", {})
        
        latest_end_date = etudiant_data.get("latest_education_end_date")
        if latest_end_date:
            etudiant_data["is_etudiant"] = self._is_ongoing_date(latest_end_date)

        is_en_poste = False
        if isinstance(experiences, list):
            for exp in experiences:
                end_date = exp.get("end_date")
                if isinstance(exp, dict) and end_date:
                    if self._is_ongoing_date(end_date):
                        is_en_poste = True
                        break

        langues_raw = get_parsed("language_task", {})
        identity = get_parsed("identity_task", {})

        # Nettoyage des doublons dans hard_skills (case-insensitive)
        if isinstance(competences, dict):
            raw_skills = competences.get("hard_skills", [])
            seen = set()
            unique_skills = []
            for skill in raw_skills:
                key = str(skill).lower() if not isinstance(skill, str) else skill.lower()
                if key not in seen:
                    seen.add(key)
                    unique_skills.append(skill)
            competences["hard_skills"] = unique_skills

        candidat = {
            "first_name": identity.get("first_name") if isinstance(identity, dict) else None,
            "langues": langues_raw.get("langues", []) if isinstance(langues_raw, dict) else [],
            "compétences": competences,
            "expériences": experiences,
            "reconversion": reconversion,
            "projets": projets,
            "formations": formations,
            "etudiant": etudiant_data,
            "is_en_poste": is_en_poste,
        }

        # Analyse
        header_data = get_parsed("poste_visé_task", {"poste_vise": "Non identifié", "confiance": 0})
        metier_data = get_parsed("metier_matching_task", {"postes_recommandes": []})
        quality_data = get_parsed("cv_quality_task", {"score_global": 0, "red_flags": [], "conseils_prioritaires": []})
        project_data = get_parsed("project_analysis_task", {"analyse_projets": []})

        conseils = []
        if isinstance(quality_data, dict):
            conseils.extend(quality_data.get("conseils_prioritaires", []))

        # Filtre de sécurité : ne garder dans l'analyse de projets que ceux issus de l'extraction
        extracted_titles: set[str] = set()
        for p in (projets.get("professional", []) if isinstance(projets, dict) else []):
            if isinstance(p, dict) and p.get("title"):
                extracted_titles.add(p["title"].strip().lower())
        for p in (projets.get("personal", []) if isinstance(projets, dict) else []):
            if isinstance(p, dict) and p.get("title"):
                extracted_titles.add(p["title"].strip().lower())

        analyse_projets = project_data.get("analyse_projets", []) if isinstance(project_data, dict) else []
        if extracted_titles and isinstance(analyse_projets, list):
            def _is_extracted_project(titre: str) -> bool:
                t = titre.strip().lower()
                return t in extracted_titles or any(t in ref or ref in t for ref in extracted_titles)

            analyse_projets = [p for p in analyse_projets if isinstance(p, dict) and _is_extracted_project(p.get("titre", ""))]

        recommandations = {
            "header_analysis": header_data,
            "postes_recommandes": metier_data.get("postes_recommandes", []) if isinstance(metier_data, dict) else [],
            "analyse_poste_vise": metier_data.get("analyse_poste_vise", "") if isinstance(metier_data, dict) else "",
            "qualite_cv": quality_data,
            "analyse_projets": analyse_projets,
            "coherence_globale_projets": project_data.get("coherence_globale", {}) if isinstance(project_data, dict) else {},
            "conseils_amelioration": conseils,
        }

        return {
            "candidat": candidat,
            "recommandations": recommandations
        }

    def _prepare_metiers_for_prompt(self, metiers: List[Dict] = None) -> str:
        """Prépare le référentiel métiers restreint pour le prompt."""
        if metiers is None:
            metiers = self.metiers_data
            
        flat_list = []
        def _flatten(job_list):
            for job in job_list:
                if "metiers" in job:
                    _flatten(job["metiers"])
                elif "id" in job:
                    flat_list.append(job)
        _flatten(metiers)
        
        lines = []
        for m in flat_list:
            mid = m.get("id", "?")
            nom = m.get("nom", "?")
            cat = m.get("categorie", "?")
            comp = m.get("competences_techniques", [])
            outils = m.get("outils_technologies", [])
            soft = m.get("competences_soft", [])
            niveau = m.get("niveau_etude", "?")
            exp = m.get("experience_requise", "?")
            lines.append(
                f"[{mid}] {nom} ({cat})\n"
                f"  Compétences techniques: {', '.join(comp)}\n"
                f"  Outils: {', '.join(outils)}\n"
                f"  Soft skills: {', '.join(soft[:3])}\n"
                f"  Niveau: {niveau} | Expérience: {exp}"
            )
        return "\n\n".join(lines)



    # ──────────────────────────────────────────────
    # Utilitaires
    # ──────────────────────────────────────────────

    def _is_ongoing_date(self, date_str: str) -> bool:
        """Détermine si une date (fin d'étude ou fin d'expérience) est dans le futur ou en cours."""
        if not date_str:
            return False
        date_str = str(date_str).lower().strip()
        ongoing_keywords = [
            "present", "présent", "current", "cours", "aujourd'hui", "now"
        ]
        if any(keyword in date_str for keyword in ongoing_keywords):
            return True

        try:
            now = datetime.now()
            end_date = None
            if len(date_str) == 10 and date_str[4] == "-" and date_str[7] == "-":
                end_date = datetime.strptime(date_str, "%Y-%m-%d")
            elif len(date_str) == 7 and date_str[4] == "-":
                end_date = datetime.strptime(date_str, "%Y-%m")
            elif "/" in date_str:
                parts = date_str.split("/")
                if len(parts) == 2:
                    _, y = parts
                    if len(y) == 4:
                        end_date = datetime.strptime(date_str, "%m/%Y")
                    elif len(y) == 2:
                        end_date = datetime.strptime(date_str, "%m/%y")
            elif len(date_str) == 4 and date_str.isdigit():
                end_date = datetime.strptime(date_str, "%Y")
                end_date = end_date.replace(month=12, day=31)

            if end_date:
                return end_date >= now
            return False
        except (ValueError, IndexError):
            logger.warning(f"Date parsing failed for: {date_str}")
            return False

    def _parse_json_output(self, crew_output, default_structure=None) -> Any:
        """Parse la sortie JSON d'un agent CrewAI avec nettoyage robuste."""
        if crew_output is None:
            return default_structure if default_structure is not None else {}

        raw = crew_output.raw if hasattr(crew_output, "raw") else str(crew_output)

        # Extraire le bloc JSON si encapsulé dans des backticks
        if "```json" in raw:
            raw = raw.split("```json")[1].split("```")[0].strip()
        elif "```" in raw:
            parts = raw.split("```")
            if len(parts) >= 3:
                raw = parts[1].strip()

        raw = raw.strip().lstrip("\ufeff")

        def _try_parse(text: str):
            """Tente un parse direct puis un parse avec extraction du premier bloc JSON."""
            try:
                return json.loads(text)
            except json.JSONDecodeError:
                pass
            for start_char, end_char in [("{", "}"), ("[", "]")]:
                start_idx = text.find(start_char)
                end_idx = text.rfind(end_char)
                if start_idx != -1 and end_idx > start_idx:
                    try:
                        return json.loads(text[start_idx : end_idx + 1])
                    except json.JSONDecodeError:
                        pass
            return None

        result = _try_parse(raw)
        if result is not None:
            return result
        if "{{" in raw:
            cleaned = raw.replace("{{", "{").replace("}}", "}")
            result = _try_parse(cleaned)
            if result is not None:
                return result

        logger.error(f"JSON Parse Error (after cleanup): {raw[:200]}")
        return default_structure if default_structure is not None else {}