attendantelectro commited on
Commit
10a266f
·
verified ·
1 Parent(s): 5f2f51d

Update scraper.py

Browse files
Files changed (1) hide show
  1. scraper.py +10 -12
scraper.py CHANGED
@@ -1,17 +1,18 @@
1
  from selenium import webdriver
2
- from selenium.webdriver.chrome.service import Service
3
- from webdriver_manager.chrome import ChromeDriverManager
4
- from selenium.webdriver.chrome.options import Options
5
  import zipfile
6
  import os
7
 
8
  def scrape_pages(base_url, start_page, end_page):
9
- chrome_options = Options()
10
- chrome_options.add_argument("--headless")
11
- chrome_options.add_argument("--no-sandbox")
12
- chrome_options.add_argument("--disable-dev-shm-usage")
13
 
14
- driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
 
 
 
15
 
16
  if not os.path.exists('pages'):
17
  os.makedirs('pages')
@@ -38,9 +39,6 @@ def scrape_pages(base_url, start_page, end_page):
38
  if __name__ == "__main__":
39
  base_url = "https://shahvani.com/dastans"
40
  start_page = 1
41
- end_page = 10 # این عدد را می‌توانید به تابع بدهید یا از کاربر بگیرید
42
-
43
- # مثال: اگر می‌خواهید تعداد صفحات را به صورت پویا مشخص کنید
44
- # end_page = get_last_page_number() # تابعی که تعداد صفحات را برمی‌گرداند
45
 
46
  scrape_pages(base_url, start_page, end_page)
 
1
  from selenium import webdriver
2
+ from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 
 
3
  import zipfile
4
  import os
5
 
6
  def scrape_pages(base_url, start_page, end_page):
7
+ options = webdriver.ChromeOptions()
8
+ options.add_argument('--headless')
9
+ options.add_argument('--no-sandbox')
10
+ options.add_argument('--disable-dev-shm-usage')
11
 
12
+ driver = webdriver.Remote(
13
+ command_executor='http://localhost:4444/wd/hub',
14
+ options=options
15
+ )
16
 
17
  if not os.path.exists('pages'):
18
  os.makedirs('pages')
 
39
  if __name__ == "__main__":
40
  base_url = "https://shahvani.com/dastans"
41
  start_page = 1
42
+ end_page = 10 # برای تست، عدد کمتری انتخاب کنید
 
 
 
43
 
44
  scrape_pages(base_url, start_page, end_page)