Spaces:

adityaiiitr
/

scrapper

Sleeping

App Files Files Community

scrapper / webscrap.py

adityasproutsai

api setup

0501b9e 10 months ago

raw

history blame contribute delete

12.4 kB

	import time
	import os
	import re
	import urllib.parse
	import sys
	from selenium import webdriver
	from selenium.webdriver.chrome.service import Service
	from webdriver_manager.chrome import ChromeDriverManager
	from selenium.webdriver.common.by import By
	from selenium.webdriver.chrome.options import Options
	from selenium.webdriver.support.ui import WebDriverWait
	from selenium.webdriver.support import expected_conditions as EC
	from datetime import datetime

	from cleaning import clean_text

	class WebScraper:
	def __init__(self, base_url,college, output_dir=None, max_depth=None, max_pages=None, delay=1, headless=True):
	"""Initialize the web scraper with configuration parameters."""

	parsed_url = urllib.parse.urlparse(base_url)
	self.base_url = base_url
	self.base_domain = f"{parsed_url.scheme}://{parsed_url.netloc}"
	self.college = college


	self.max_depth = max_depth # None means unlimited depth
	self.max_pages = max_pages # None means unlimited pages
	self.delay = delay
	self.visited_links = set()
	self.page_count = 0
	self.start_time = datetime.now()


	if output_dir is None:
	domain_name = parsed_url.netloc.replace(".", "_")
	self.output_dir = f"{domain_name}_scraped_content"
	else:
	self.output_dir = output_dir

	if not os.path.exists(self.output_dir):
	os.makedirs(self.output_dir)


	self.log_path = os.path.join(self.output_dir, "scrape_log.txt")
	with open(self.log_path, "w", encoding="utf-8") as log_file:
	log_file.write(f"Scraping started at: {self.start_time}\n")
	log_file.write(f"Base URL: {self.base_url}\n")
	log_file.write(f"Max depth: {self.max_depth if self.max_depth is not None else 'Unlimited'}\n")
	log_file.write(f"Max pages: {self.max_pages if self.max_pages is not None else 'Unlimited'}\n")
	log_file.write(f"Delay between requests: {self.delay} seconds\n\n")

	# Configure Selenium
	options = Options()
	if headless:
	options.add_argument("--headless")
	options.add_argument("--disable-gpu")
	options.add_argument("--no-sandbox")
	options.add_argument("--window-size=1920,1080")
	options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36")

	# Initialize the WebDriver
	self.driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

	def log_message(self, message):
	"""Write a message to both console and log file."""
	print(message)
	with open(self.log_path, "a", encoding="utf-8") as log_file:
	log_file.write(f"{message}\n")

	def is_valid_url(self, url):
	"""Check if a URL is valid and should be scraped."""
	# Skip URLs that are not part of the same domain
	if not url.startswith(self.base_domain):
	return False

	# Skip common file types that aren't web pages
	if re.search(r"\.(pdf\|jpg\|jpeg\|png\|gif\|svg\|css\|js\|xml\|json)$", url, re.IGNORECASE):
	return False

	# Skip URLs with fragments (#) as they often point to the same page
	if "#" in url:
	url = url.split("#")[0]
	if url in self.visited_links:
	return False

	return True

	def sanitize_filename(self, text):
	"""Convert text to a safe filename."""
	if not text or len(text.strip()) == 0:
	return f"Page_{self.page_count}"

	# Replace invalid filename characters
	safe_name = re.sub(r'[^\w\s()-]', "_", text)
	safe_name = re.sub(r'\s+', "_", safe_name)
	# Limit filename length
	return safe_name[:100] if len(safe_name) > 100 else safe_name

	def extract_links(self):
	"""Extract all valid links from the current page."""
	links = self.driver.find_elements(By.TAG_NAME, "a")
	valid_links = []

	for link in links:
	try:
	href = link.get_attribute("href")
	if href and self.is_valid_url(href) and href not in self.visited_links:
	valid_links.append(href)
	except Exception:
	continue

	return list(set(valid_links)) # Remove duplicates

	def scrape_page(self, url):
	"""Scrape content from a single page."""
	if url in self.visited_links:
	return []

	# Handle page_count overflow - extremely unlikely but possible during unlimited scraping
	if self.page_count >= sys.maxsize - 1:
	self.log_message("Warning: Page count approaching integer limit. Resetting to avoid overflow.")
	self.page_count = 0

	self.page_count += 1
	self.visited_links.add(url)

	# Create status message
	if self.max_pages:
	status = f"Scraping [{self.page_count}/{self.max_pages}]: {url}"
	else:
	status = f"Scraping page #{self.page_count}: {url}"

	self.log_message(status)

	try:
	self.driver.get(url)
	WebDriverWait(self.driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "body")))
	time.sleep(self.delay) # Respectful delay

	# Extract page title
	try:
	page_title = self.driver.title
	if not page_title or page_title.strip() == "":
	page_title = f"Page_{self.page_count}"
	except:
	page_title = f"Page_{self.page_count}"

	# Sanitize for filename
	safe_filename = self.sanitize_filename(page_title)

	# Add a counter suffix if there's a filename collision
	original_filename = safe_filename
	counter = 1
	while os.path.exists(os.path.join(self.output_dir, f"{safe_filename}.txt")):
	safe_filename = f"{original_filename}_{counter}"
	counter += 1

	# Extract page content
	page_text = self.driver.find_element(By.TAG_NAME, "body").text

	# Save to file
	print(self.output_dir)
	file_path = os.path.join(self.output_dir, f"{safe_filename}.md")
	with open(file_path, "w", encoding="utf-8") as file:
	page_text = clean_text(page_text,self.college)
	file.write(f"URL: {url}\nTitle: {page_title}\nScraped at: {datetime.now()}\n\n{page_text}\n")

	self.log_message(f"✓ Saved: {safe_filename}.txt")

	# Extract links for further crawling
	new_links = self.extract_links()
	self.log_message(f"Found {len(new_links)} new links on this page")
	return new_links

	except Exception as e:
	self.log_message(f"✗ Error scraping {url}: {str(e)}")
	return []

	def save_progress_state(self, queue):
	"""Save current progress to allow for resuming."""
	progress_file = os.path.join(self.output_dir, "scrape_progress.txt")
	with open(progress_file, "w", encoding="utf-8") as file:
	file.write(f"page_count={self.page_count}\n")
	file.write(f"visited_links={len(self.visited_links)}\n")
	file.write(f"queue_size={len(queue)}\n")
	file.write(f"timestamp={datetime.now()}\n")

	# Save a sample of queued URLs (first 100)
	file.write("\nQueue sample (first 100):\n")
	for i, (url, depth) in enumerate(queue[:100]):
	file.write(f"{url} (depth {depth})\n")
	if i >= 99:
	break

	def start(self):
	"""Start the scraping process using a queue-based approach to avoid recursion limits."""
	try:
	self.log_message(f"Starting unlimited web scraping from: {self.base_url}")
	self.log_message(f"Output directory: {self.output_dir}")

	if self.max_depth is None:
	self.log_message(f"Depth limit: Unlimited")
	else:
	self.log_message(f"Maximum depth: {self.max_depth}")

	if self.max_pages is None:
	self.log_message(f"Page limit: Unlimited")
	else:
	self.log_message(f"Maximum pages: {self.max_pages}")

	# Initialize queue with starting URL and depth
	queue = [(self.base_url, 1)]
	last_progress_save = time.time()

	# Process the queue
	while queue:
	# Check if we've hit the maximum pages limit
	if self.max_pages is not None and self.page_count >= self.max_pages:
	self.log_message(f"Reached maximum page limit ({self.max_pages})")
	break

	# Get the next URL and its depth from the queue
	current_url, current_depth = queue.pop(0)

	# Skip if already visited
	if current_url in self.visited_links:
	continue

	# Check depth limit
	if self.max_depth is not None and current_depth > self.max_depth:
	continue

	# Scrape the page
	new_links = self.scrape_page(current_url)

	# Add new links to the queue
	for link in new_links:
	if link not in self.visited_links:
	queue.append((link, current_depth + 1))

	# Save progress every 5 minutes
	if time.time() - last_progress_save > 300: # 300 seconds = 5 minutes
	self.save_progress_state(queue)
	last_progress_save = time.time()

	# Memory management - clear visited links that are not in queue
	# Only do this if we've visited a lot of pages
	if len(self.visited_links) > 10000:
	self.log_message("Performing memory management...")
	queue_urls = set(url for url, _ in queue)
	self.visited_links = set(url for url in self.visited_links if url in queue_urls or url == self.base_url)
	self.log_message(f"Memory cleaned. Keeping track of {len(self.visited_links)} visited URLs.")

	# Periodically report progress
	if self.page_count % 10 == 0:
	elapsed = datetime.now() - self.start_time
	self.log_message(f"Progress: {self.page_count} pages scraped, {len(queue)} links in queue, running for {elapsed}")

	# Final progress save
	self.save_progress_state(queue)

	elapsed_time = datetime.now() - self.start_time
	self.log_message(f"\n✅ Scraping complete! Scraped {self.page_count} pages in {elapsed_time}.")
	self.log_message(f"Content saved in '{self.output_dir}' directory")

	except Exception as e:
	self.log_message(f"Error during scraping: {str(e)}")
	finally:
	self.driver.quit()


	# Example usage
	if __name__ == "__main__":
	# Set your base URL here
	BASE_URLS = ["https://iiitranchi.ac.in/","https://www.shiksha.com/college/indian-institute-of-information-technology-ranchi-53869"]

	# Create and configure the scraper with unlimited depth and pages
	for index in range(len(BASE_URLS)):
	scraper = WebScraper(
	base_url=BASE_URLS[index],
	college="IIIT RANCHI",
	output_dir= f"IIIT RANCHI/{index+1}",
	max_depth=None, # Set to None for unlimited depth
	max_pages=5, # Set to None for unlimited pages
	delay=5, # Seconds to wait between requests
	headless=True # Run browser in headless mode
	)

	# Start scraping
	scraper.start()