Spaces:

edouardlgp
/

Job_Classification

Running

App Files Files Community

edouardlgp commited on May 12, 2025

Commit

43d46fb

verified ·

1 Parent(s): 91721d4

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -23

app.py CHANGED Viewed

@@ -381,6 +381,7 @@ def classify_esco_by_hierarchical_level(responsibilities: List[str]) -> dict:
         level5_code = gpt_call("Identify fifth-level occupational group", user_prompt5).strip()
         # Handle the case where the LLM might return just the code part
         level5_code = code_sanitize(level5_code, list5_output)
         result.update(get_level_ESCO_info(level5_df, level5_code, 'Level_5'))
     ## Et voila!!
@@ -909,10 +910,10 @@ def process_pdf(file):
             "qualification": qualification,
             "ccoq_levels": {f"Level_{i}_CCOG_{field}": occ_group.get(f"Level_{i}_CCOG_{field}")
                           for i in range(1, 5) for field in ["code", "name", "desc"]},
-            "interview_questions": build_interview(responsibilities, skills),
             "skills": joined_skills,
             "esco_levels": {f"Level_{i}_ESCO_{field}": esco_occ.get(f"Level_{i}_ESCO_{field}")
-                          for i in range(1, 5) for field in ["code", "name", "desc"]},
             "esco_skills": esco_skills,
             "processing_time": time.strftime("%Y-%m-%d %H:%M:%S")
         }
@@ -922,6 +923,7 @@ def process_pdf(file):
             json.dump(result_data, f, indent=2)
             json_path = f.name
             log_debug(f"Results saved to temporary JSON file: {json_path}")
         # Format outputs for display through html cards
         formatted_skills = format_skill_cards(joined_skills)
@@ -1009,7 +1011,7 @@ def generate_word_document(json_path: Optional[str]) -> str:
     # Default values for all fields
     default_values = {
-        "file": "Unknown file",
         "responsibilities": "No responsibilities extracted.",
         "classified_job_family": "No job family identified.",
         "qualification": ["No qualification information available."],
@@ -1021,7 +1023,7 @@ def generate_word_document(json_path: Optional[str]) -> str:
     # Safely build the result dictionary with fallbacks
     try:
         result = {
-            "file": data.get("file", default_values["file"]),
             "responsibilities": data.get("responsibilities", default_values["responsibilities"]),
             "classified_job_family": data.get("job_family", default_values["classified_job_family"]),
             "qualification": data.get("qualification", default_values["qualification"]),
@@ -1050,53 +1052,85 @@ def generate_word_document(json_path: Optional[str]) -> str:
         doc.add_paragraph(f"Generated on {time.strftime('%Y-%m-%d %H:%M:%S')}")
         doc.add_paragraph("International Organization for Migration", style="Intense Quote")
-        doc.add_heading('Position Description Analysis Report', level=1)
         doc.add_paragraph(f"File: {result['file']}")
-        doc.add_paragraph(f"Job Family: {result['classified_job_family']}")
-        doc.add_heading('Responsibilities', level=2)
         doc.add_paragraph(result['responsibilities'])
         # Skills (Extracted)
         doc.add_heading('Skills (Extracted)', level=2)
         skills_list = result['skills']
         if isinstance(skills_list, dict):
             skills_list = skills_list.get("skills", [])
         for skill in skills_list:
-            doc.add_paragraph(f"{skill.get('skill_name', 'Unnamed Skill')} - {skill.get('description', '')}")
-        doc.add_heading('Qualifications', level=2)
         for item in result['qualification']:
             doc.add_paragraph(item, style='List Bullet')
-        doc.add_heading('Interview Questions', level=2)
         for item in result['interview']:
             doc.add_paragraph(item, style='List Bullet')
         if result["esco_levels"]:
-            doc.add_heading('ESCO Levels', level=2)
             for key, value in result["esco_levels"].items():
-                doc.add_paragraph(f"{key}: {value}")
-        if result["ccog_levels"]:
-            doc.add_heading('C-COG Levels', level=2)
-            for key, value in result["ccog_levels"].items():
-                doc.add_paragraph(f"{key}: {value}")
         # Skills (ESCO)
-        doc.add_heading('Skills (ESCO)', level=2)
         esco_skills_list = result['skills_esco']
         if isinstance(esco_skills_list, dict):
             esco_skills_list = esco_skills_list.get("skills", [])
         for skill in esco_skills_list:
-            doc.add_paragraph(f"{skill.get('skill_name', 'Unnamed Skill')} - {skill.get('description', '')}")
-        # Footer
-        doc.add_paragraph()
-        doc.add_paragraph("DISCLAIMER: This document contains material generated by artificial intelligence technology. While efforts have been made to ensure accuracy, please be aware that AI-generated content may not always fully represent the intent or expertise of human-authored material and may contain errors or inaccuracies. An AI model might generate content that sounds plausible but that is either factually incorrect or unrelated to the given context. These unexpected outcomes, also called AI hallucinations, can stem from biases, under-performing information retrieval, lack of real-world understanding, or limitations in training data.", style='Footer')
     except Exception as e:
         log_debug(f"Error generating document content: {str(e)}")
@@ -1108,7 +1142,7 @@ def generate_word_document(json_path: Optional[str]) -> str:
     #   FILE SAVING WITH MULTIPLE FALLBACKS
     try:
         # Generate appropriate filename
-        base_name = os.path.splitext(os.path.basename(result['file']))[0]
         if base_name:
             clean_name = re.sub(r'[^\w\-]', '_', base_name)[:50]  # Sanitize and truncate
             output_filename = f"{clean_name}_analysis_{time.strftime('%Y%m%d')}.docx"

         level5_code = gpt_call("Identify fifth-level occupational group", user_prompt5).strip()
         # Handle the case where the LLM might return just the code part
         level5_code = code_sanitize(level5_code, list5_output)
+        log_debug(f"Level 5 ESCO code: {level5_code}")
         result.update(get_level_ESCO_info(level5_df, level5_code, 'Level_5'))
     ## Et voila!!
             "qualification": qualification,
             "ccoq_levels": {f"Level_{i}_CCOG_{field}": occ_group.get(f"Level_{i}_CCOG_{field}")
                           for i in range(1, 5) for field in ["code", "name", "desc"]},
+            "interview_questions": interview,
             "skills": joined_skills,
             "esco_levels": {f"Level_{i}_ESCO_{field}": esco_occ.get(f"Level_{i}_ESCO_{field}")
+                          for i in range(1, 6) for field in ["code", "name", "desc"]},
             "esco_skills": esco_skills,
             "processing_time": time.strftime("%Y-%m-%d %H:%M:%S")
         }
             json.dump(result_data, f, indent=2)
             json_path = f.name
             log_debug(f"Results saved to temporary JSON file: {json_path}")
+            log_debug(f"Results data: {result_data}")
         # Format outputs for display through html cards
         formatted_skills = format_skill_cards(joined_skills)
     # Default values for all fields
     default_values = {
+        "file_name": "Unknown file",
         "responsibilities": "No responsibilities extracted.",
         "classified_job_family": "No job family identified.",
         "qualification": ["No qualification information available."],
     # Safely build the result dictionary with fallbacks
     try:
         result = {
+            "file_name": data.get("file_name", default_values["file_name"]),
             "responsibilities": data.get("responsibilities", default_values["responsibilities"]),
             "classified_job_family": data.get("job_family", default_values["classified_job_family"]),
             "qualification": data.get("qualification", default_values["qualification"]),
         doc.add_paragraph(f"Generated on {time.strftime('%Y-%m-%d %H:%M:%S')}")
         doc.add_paragraph("International Organization for Migration", style="Intense Quote")
+        doc.add_heading('AI DISCLAIMER', level=2)
+        doc_para = doc.add_paragraph()
+        doc_para.add_run('This document contains material generated by artificial intelligence technology. While efforts have been made to ensure accuracy, please be aware that AI-generated content may not always fully represent the intent or expertise of human-authored material and may contain errors or inaccuracies. An AI model might generate content that sounds plausible but that is either factually incorrect or unrelated to the given context. These unexpected outcomes, also called AI hallucinations, can stem from biases, under-performing information retrieval, lack of real-world understanding, or limitations in training dat
+        doc.add_heading('Input Information', level=2)
         doc.add_paragraph(f"File: {result['file']}")
         doc.add_paragraph(result['responsibilities'])
+        doc.add_heading('Job Family Classification', level=2)
+        doc.add_paragraph(f" {result['classified_job_family']}")
+        # Helper function to add a bold label with regular value
+        def add_skill_detail(paragraph_text, value):
+            para = doc.add_paragraph()
+            para.add_run(paragraph_text).bold = True
+            para.add_run(f" {value}")
         # Skills (Extracted)
         doc.add_heading('Skills (Extracted)', level=2)
         skills_list = result['skills']
         if isinstance(skills_list, dict):
             skills_list = skills_list.get("skills", [])
         for skill in skills_list:
+            doc.add_paragraph(f"• {skill.get('skill_name', 'Unnamed Skill')}", style='List Bullet')
+            add_skill_detail("Importance:", skill.get('importance', 'N/A'))
+            add_skill_detail("Type:", skill.get('type', 'N/A'))
+            add_skill_detail("Proficiency Level:", skill.get('proficiency_level', 'N/A'))
+            add_skill_detail("Distinctive Elements:", skill.get('distinctive_elements', 'N/A'))
+            add_skill_detail("Resume Signals:", skill.get('resume_signals', 'N/A'))
+            add_skill_detail("Assessment Method:", skill.get('assessment_method', 'N/A'))
+        doc.add_heading('Suggested Qualifications', level=2)
         for item in result['qualification']:
             doc.add_paragraph(item, style='List Bullet')
+        doc.add_heading('Suggested Interview Questions', level=2)
         for item in result['interview']:
             doc.add_paragraph(item, style='List Bullet')
+        if result["ccog_levels"]:
+            doc.add_heading('UN Common Classification of Occupational Groups', level=2)
+            for key, value in result["ccog_levels"].items():
+                    paragraph = doc.add_paragraph()
+                    run = paragraph.add_run(f"{key}: ")
+                    run.bold = True
+                    paragraph.add_run(str(value))
         if result["esco_levels"]:
+            doc.add_heading('ESCO Framework Occupational Groups', level=2)
             for key, value in result["esco_levels"].items():
+                    paragraph = doc.add_paragraph()
+                    run = paragraph.add_run(f"{key}: ")
+                    run.bold = True
+                    paragraph.add_run(str(value))
         # Skills (ESCO)
+        doc.add_heading('Mapped Skills (ESCO)', level=2)
         esco_skills_list = result['skills_esco']
         if isinstance(esco_skills_list, dict):
             esco_skills_list = esco_skills_list.get("skills", [])
         for skill in esco_skills_list:
+            doc.add_paragraph(f"• {skill.get('skill_name', 'Unnamed Skill')}", style='List Bullet')
+            add_skill_detail("Importance:", skill.get('importance', 'N/A'))
+            add_skill_detail("Type:", skill.get('type', 'N/A'))
+            add_skill_detail("Proficiency Level:", skill.get('proficiency_level', 'N/A'))
+            add_skill_detail("Distinctive Elements:", skill.get('distinctive_elements', 'N/A'))
+            add_skill_detail("Resume Signals:", skill.get('resume_signals', 'N/A'))
+            add_skill_detail("Assessment Method:", skill.get('assessment_method', 'N/A'))
     except Exception as e:
         log_debug(f"Error generating document content: {str(e)}")
     #   FILE SAVING WITH MULTIPLE FALLBACKS
     try:
         # Generate appropriate filename
+        base_name = os.path.splitext(os.path.basename(result['file_name']))[0]
         if base_name:
             clean_name = re.sub(r'[^\w\-]', '_', base_name)[:50]  # Sanitize and truncate
             output_filename = f"{clean_name}_analysis_{time.strftime('%Y%m%d')}.docx"