Spaces:

Joedac
/

job-scraper

Paused

App Files Files Community

joedac-netvigie commited on May 24, 2025

Commit

bf67806

1 Parent(s): a14e062

add description

Browse files

Files changed (1) hide show

app.py +74 -16

app.py CHANGED Viewed

@@ -6,7 +6,42 @@ import random
 import pandas as pd
-def scrape_linkedin_jobs(keyword, location, num_pages=1):
     """
     Scrape les offres d'emploi sur LinkedIn en fonction des mots-clés et de l'emplacement spécifiés.
@@ -14,6 +49,7 @@ def scrape_linkedin_jobs(keyword, location, num_pages=1):
         keyword (str): Le mot-clé pour la recherche d'emploi (ex: Python, Data Scientist)
         location (str): L'emplacement pour la recherche d'emploi (ex: Paris, France)
         num_pages (int, optional): Le nombre de pages à scraper. Par défaut à 1.
     Returns:
         pandas.DataFrame ou str: Un DataFrame contenant les offres d'emploi trouvées ou un message d'erreur
@@ -25,6 +61,7 @@ def scrape_linkedin_jobs(keyword, location, num_pages=1):
     }
     for page in range(num_pages):
         params = {
             "keywords": keyword,
             "location": location,
@@ -42,25 +79,37 @@ def scrape_linkedin_jobs(keyword, location, num_pages=1):
             if not job_cards:
                 return f"Avertissement: Aucune offre d'emploi trouvée sur la page {page + 1}. La structure de la page a peut-être changé."
-            for card in job_cards:
                 title = card.find('h3', class_='base-search-card__title')
                 company = card.find('h4', class_='base-search-card__subtitle')
-                location = card.find('span', class_='job-search-card__location')
                 link = card.find('a', class_='base-card__full-link')
-                if title and company and location and link:
-                    jobs.append({
                         'Titre': title.text.strip(),
                         'Entreprise': company.text.strip(),
-                        'Lieu': location.text.strip(),
                         'Lien': link['href']
-                    })
-            time.sleep(random.uniform(1, 3))
         except requests.RequestException as e:
             return f"Une erreur s'est produite lors de la récupération de la page {page + 1}: {str(e)}"
     return pd.DataFrame(jobs)
@@ -77,10 +126,10 @@ def dataframe_to_html(df):
     if not isinstance(df, pd.DataFrame):
         return f"<p>{df}</p>"
-    html = "<table border='1'><thead><tr>"
     for col in df.columns:
-        html += f"<th>{col}</th>"
     html += "</tr></thead><tbody>"
@@ -88,9 +137,13 @@ def dataframe_to_html(df):
         html += "<tr>"
         for col in df.columns:
             if col == "Lien":
-                html += f'<td><a href="{row[col]}" target="_blank">{row[col]}</a></td>'
             else:
-                html += f"<td>{row[col]}</td>"
         html += "</tr>"
     html += "</tbody></table>"
@@ -98,7 +151,7 @@ def dataframe_to_html(df):
     return html
-def linkedin_scraper_interface(keyword, location, num_pages):
     """
     Interface pour le scraper LinkedIn qui valide les entrées et formate les résultats.
@@ -106,6 +159,7 @@ def linkedin_scraper_interface(keyword, location, num_pages):
         keyword (str): Le mot-clé pour la recherche d'emploi
         location (str): L'emplacement pour la recherche d'emploi
         num_pages (int): Le nombre de pages à scraper
     Returns:
         str: Résultats formatés en HTML avec des liens cliquables ou message d'erreur
@@ -120,7 +174,10 @@ def linkedin_scraper_interface(keyword, location, num_pages):
     except ValueError:
         return "Le nombre de pages doit être un nombre entier."
-    results = scrape_linkedin_jobs(keyword, location, num_pages)
     if isinstance(results, str):
         return results
@@ -143,14 +200,15 @@ with gr.Blocks(title="Job Scraper") as demo:
         with gr.Column():
             keyword_input = gr.Textbox(label="Mot-clé (ex: Python, Data Scientist)", placeholder="Entrez un mot-clé")
             location_input = gr.Textbox(label="Lieu (ex: Paris, France)", placeholder="Entrez un lieu")
-            pages_input = gr.Number(label="Nombre de pages à scraper", value=1, minimum=1, maximum=10)
             submit_button = gr.Button("Rechercher")
     output = gr.HTML(label="Résultats")
     submit_button.click(
         fn=linkedin_scraper_interface,
-        inputs=[keyword_input, location_input, pages_input],
         outputs=output
     )

 import pandas as pd
+def get_job_description(job_url, headers):
+    """
+    Récupère la description d'une offre d'emploi à partir de son URL.
+    Args:
+        job_url (str): L'URL de l'offre d'emploi
+        headers (dict): Les headers pour la requête HTTP
+    Returns:
+        str: La description de l'offre d'emploi ou un message d'erreur
+    """
+    try:
+        response = requests.get(job_url, headers=headers)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.content, 'html.parser')
+        description_container = soup.find('div', class_='show-more-less-html__markup')
+        if description_container:
+            description = description_container.get_text(strip=True, separator=' ')
+            print(f"✅ Description récupérée pour {job_url[:50]}...")
+            print(f"Aperçu: {description[:200]}...")
+            return description
+        else:
+            print(f"❌ Balise de description non trouvée pour {job_url}")
+            return "Description non disponible"
+    except requests.RequestException as e:
+        print(f"❌ Erreur lors de la récupération de {job_url}: {str(e)}")
+        return f"Erreur lors de la récupération: {str(e)}"
+    except Exception as e:
+        print(f"❌ Erreur inattendue pour {job_url}: {str(e)}")
+        return f"Erreur inattendue: {str(e)}"
+def scrape_linkedin_jobs(keyword, location, num_pages=1, include_description=True):
     """
     Scrape les offres d'emploi sur LinkedIn en fonction des mots-clés et de l'emplacement spécifiés.
         keyword (str): Le mot-clé pour la recherche d'emploi (ex: Python, Data Scientist)
         location (str): L'emplacement pour la recherche d'emploi (ex: Paris, France)
         num_pages (int, optional): Le nombre de pages à scraper. Par défaut à 1.
+        include_description (bool, optional): Si True, récupère aussi les descriptions. Par défaut à True.
     Returns:
         pandas.DataFrame ou str: Un DataFrame contenant les offres d'emploi trouvées ou un message d'erreur
     }
     for page in range(num_pages):
+        print(f"🔍 Scraping page {page + 1}...")
         params = {
             "keywords": keyword,
             "location": location,
             if not job_cards:
                 return f"Avertissement: Aucune offre d'emploi trouvée sur la page {page + 1}. La structure de la page a peut-être changé."
+            print(f"📋 {len(job_cards)} offres trouvées sur la page {page + 1}")
+            for i, card in enumerate(job_cards):
                 title = card.find('h3', class_='base-search-card__title')
                 company = card.find('h4', class_='base-search-card__subtitle')
+                location_elem = card.find('span', class_='job-search-card__location')
                 link = card.find('a', class_='base-card__full-link')
+                if title and company and location_elem and link:
+                    job_data = {
                         'Titre': title.text.strip(),
                         'Entreprise': company.text.strip(),
+                        'Lieu': location_elem.text.strip(),
                         'Lien': link['href']
+                    }
+                    print(f"📄 Traitement de l'offre {i + 1}: {job_data['Titre']} chez {job_data['Entreprise']}")
+                    if include_description:
+                        print(f"🔗 Récupération de la description...")
+                        job_data['Description'] = get_job_description(job_data['Lien'], headers)
+                        time.sleep(random.uniform(1, 2))
+                    jobs.append(job_data)
+            time.sleep(random.uniform(1, 2))
         except requests.RequestException as e:
             return f"Une erreur s'est produite lors de la récupération de la page {page + 1}: {str(e)}"
+    print(f"✅ Scraping terminé! {len(jobs)} offres récupérées au total")
     return pd.DataFrame(jobs)
     if not isinstance(df, pd.DataFrame):
         return f"<p>{df}</p>"
+    html = "<table border='1' style='border-collapse: collapse; width: 100%;'><thead><tr>"
     for col in df.columns:
+        html += f"<th style='padding: 8px; background-color: #f2f2f2;'>{col}</th>"
     html += "</tr></thead><tbody>"
         html += "<tr>"
         for col in df.columns:
             if col == "Lien":
+                html += f'<td style="padding: 8px;"><a href="{row[col]}" target="_blank">Voir l\'offre</a></td>'
+            elif col == "Description":
+                # Limiter l'affichage de la description pour le tableau
+                desc = str(row[col])[:200] + "..." if len(str(row[col])) > 200 else str(row[col])
+                html += f"<td style='padding: 8px; max-width: 300px;'>{desc}</td>"
             else:
+                html += f"<td style='padding: 8px;'>{row[col]}</td>"
         html += "</tr>"
     html += "</tbody></table>"
     return html
+def linkedin_scraper_interface(keyword, location, num_pages, include_description):
     """
     Interface pour le scraper LinkedIn qui valide les entrées et formate les résultats.
         keyword (str): Le mot-clé pour la recherche d'emploi
         location (str): L'emplacement pour la recherche d'emploi
         num_pages (int): Le nombre de pages à scraper
+        include_description (bool): Si True, récupère aussi les descriptions
     Returns:
         str: Résultats formatés en HTML avec des liens cliquables ou message d'erreur
     except ValueError:
         return "Le nombre de pages doit être un nombre entier."
+    print(f"🚀 Début du scraping: '{keyword}' à '{location}' sur {num_pages} page(s)")
+    print(f"📝 Récupération des descriptions: {'Oui' if include_description else 'Non'}")
+    results = scrape_linkedin_jobs(keyword, location, num_pages, include_description)
     if isinstance(results, str):
         return results
         with gr.Column():
             keyword_input = gr.Textbox(label="Mot-clé (ex: Python, Data Scientist)", placeholder="Entrez un mot-clé")
             location_input = gr.Textbox(label="Lieu (ex: Paris, France)", placeholder="Entrez un lieu")
+            pages_input = gr.Number(label="Nombre de pages à scraper", value=1, minimum=1, maximum=5)
+            description_checkbox = gr.Checkbox(label="Récupérer les descriptions des offres", value=True)
             submit_button = gr.Button("Rechercher")
     output = gr.HTML(label="Résultats")
     submit_button.click(
         fn=linkedin_scraper_interface,
+        inputs=[keyword_input, location_input, pages_input, description_checkbox],
         outputs=output
     )