Spaces:

Python-proje
/

presum

Runtime error

App Files Files Community

presum / mwn.py

Python-proje

Upload 12 files

55af729 over 2 years ago

raw

history blame contribute delete

2.81 kB

	from bs4 import BeautifulSoup
	import requests
	import json
	import re

	def scrape_mwn(url):
	# extraction du code html
	html_content = requests.get(url)
	# parser le code html
	soup = BeautifulSoup(html_content.text, 'html.parser')
	# extaction des paragraphes p l'article
	app_div = soup.find('div', id='app')
	p = app_div.attrs["data-page"]
	p = json.loads(p) # transformer le contenu en dict json
	p = p["props"]["post"]["post_content"] # chemin des p de l'article
	# print(json_object) # debug
	# parser l'html du texte pour nettoyage
	main_text_soup = BeautifulSoup(p, 'html.parser')
	# extraction des tags p
	main_text_soup.find_all('p')

	# suppression du message de copyright
	main_text_soup.find("p", {"class": "article_copyright"}).decompose()

	# suppression du Read also
	for p in main_text_soup.find_all("p"): #on itère sur les paragraphes, on debute par le dernier car 'read also' se trouve en fin de texte
	for link_tag in p.find_all("a"): # on cherche les liens
	joint_list = filter(lambda x: (x != None), [link_tag.find_previous_sibling(string=True) , link_tag.find_previous_sibling("strong")]) # elemnts avant lien + enlever none
	for prev in joint_list: # le read also est tpujours avant le lien, donc on ne cherche que les tags avant
	if ('read also:' in prev.string.lower()): # verifie si c est le tag voulu
	p.decompose() # on supprime le tag parent



	# suppression des sous titres des paragraphes
	try:
	for sub_title_tag in filter(lambda x: x != None, (main_text_soup.find_all("h3") + main_text_soup.find_all("strong"))): #on cherche les tags strong et h3 et on itère
	if((sub_title_tag.parent.name != "a") & (len(sub_title_tag.findChildren("a")) == 0 )): # pour ne pas supprimer les liens marqués strong
	if(sub_title_tag.parent.name == "[document]"): # si le tag est au plus haut niveau cad parent = document
	#print("self")
	sub_title_tag.decompose() # on détruit le tag
	else: # si le tag est a l'interieur d'un <a>
	#print("parent decomp")
	sub_title_tag.parent.decompose() # on détruit le tag parent
	except Exception as e:
	pass



	text = main_text_soup.text.strip() # texte

	#suppression de la ville au début
	if(re.search(r"\s-\s",text[:20])): #cherche pour ville dans 20 premiers chars
	city_endpos = re.search(r"\s-\s",text[:20]).end()
	text = text[city_endpos:] # supprimer la ville au début du texte

	#suppression des espaces entrelignes
	text = re.sub(r'\n[\t\n\s]+\n*',r"\n",text)

	return text