presum / mwn.py
Python-proje's picture
Upload 12 files
55af729
from bs4 import BeautifulSoup
import requests
import json
import re
def scrape_mwn(url):
# extraction du code html
html_content = requests.get(url)
# parser le code html
soup = BeautifulSoup(html_content.text, 'html.parser')
# extaction des paragraphes p l'article
app_div = soup.find('div', id='app')
p = app_div.attrs["data-page"]
p = json.loads(p) # transformer le contenu en dict json
p = p["props"]["post"]["post_content"] # chemin des p de l'article
# print(json_object) # debug
# parser l'html du texte pour nettoyage
main_text_soup = BeautifulSoup(p, 'html.parser')
# extraction des tags p
main_text_soup.find_all('p')
# suppression du message de copyright
main_text_soup.find("p", {"class": "article_copyright"}).decompose()
# suppression du Read also
for p in main_text_soup.find_all("p"): #on itère sur les paragraphes, on debute par le dernier car 'read also' se trouve en fin de texte
for link_tag in p.find_all("a"): # on cherche les liens
joint_list = filter(lambda x: (x != None), [link_tag.find_previous_sibling(string=True) , link_tag.find_previous_sibling("strong")]) # elemnts avant lien + enlever none
for prev in joint_list: # le read also est tpujours avant le lien, donc on ne cherche que les tags avant
if ('read also:' in prev.string.lower()): # verifie si c est le tag voulu
p.decompose() # on supprime le tag parent
# suppression des sous titres des paragraphes
try:
for sub_title_tag in filter(lambda x: x != None, (main_text_soup.find_all("h3") + main_text_soup.find_all("strong"))): #on cherche les tags strong et h3 et on itère
if((sub_title_tag.parent.name != "a") & (len(sub_title_tag.findChildren("a")) == 0 )): # pour ne pas supprimer les liens marqués strong
if(sub_title_tag.parent.name == "[document]"): # si le tag est au plus haut niveau cad parent = document
#print("self")
sub_title_tag.decompose() # on détruit le tag
else: # si le tag est a l'interieur d'un <a>
#print("parent decomp")
sub_title_tag.parent.decompose() # on détruit le tag parent
except Exception as e:
pass
text = main_text_soup.text.strip() # texte
#suppression de la ville au début
if(re.search(r"\s-\s",text[:20])): #cherche pour ville dans 20 premiers chars
city_endpos = re.search(r"\s-\s",text[:20]).end()
text = text[city_endpos:] # supprimer la ville au début du texte
#suppression des espaces entrelignes
text = re.sub(r'\n[\t\n\s]+\n*',r"\n",text)
return text