Spaces:

luoleyuan
/

XHS

Sleeping

XHS / main.py

Trae Bot

Upload Spider_XHS project

c481f8a 30 days ago

2.16 kB

	from xhs_utils.common_util import init
	from xhs_utils.spider import Data_Spider

	if __name__ == '__main__':
	"""
	此文件为爬虫的入口文件，可以直接运行
	apis/xhs_pc_apis.py 为爬虫的api文件，包含小红书的全部数据接口，可以继续封装
	apis/xhs_creator_apis.py 为小红书创作者中心的api文件
	感谢star和follow
	"""

	cookies_str, base_path = init()
	data_spider = Data_Spider()
	"""
	save_choice: all: 保存所有的信息, media: 保存视频和图片（media-video只下载视频, media-image只下载图片，media都下载）, excel: 保存到excel
	save_choice 为 excel 或者 all 时，excel_name 不能为空
	"""


	# 1 爬取列表的所有笔记信息笔记链接如下所示注意此url会过期！
	notes = [
	r'https://www.xiaohongshu.com/explore/683fe17f0000000023017c6a?xsec_token=ABBr_cMzallQeLyKSRdPk9fwzA0torkbT_ubuQP1ayvKA=&xsec_source=pc_user',
	]
	data_spider.spider_some_note(notes, cookies_str, base_path, 'all', 'test')

	# 2 爬取用户的所有笔记信息用户链接如下所示注意此url会过期！
	user_url = 'https://www.xiaohongshu.com/user/profile/64c3f392000000002b009e45?xsec_token=AB-GhAToFu07JwNk_AMICHnp7bSTjVz2beVIDBwSyPwvM=&xsec_source=pc_feed'
	data_spider.spider_user_all_note(user_url, cookies_str, base_path, 'all')

	# 3 搜索指定关键词的笔记
	query = "榴莲"
	query_num = 10
	sort_type_choice = 0 # 0 综合排序, 1 最新, 2 最多点赞, 3 最多评论, 4 最多收藏
	note_type = 0 # 0 不限, 1 视频笔记, 2 普通笔记
	note_time = 0 # 0 不限, 1 一天内, 2 一周内天, 3 半年内
	note_range = 0 # 0 不限, 1 已看过, 2 未看过, 3 已关注
	pos_distance = 0 # 0 不限, 1 同城, 2 附近指定这个1或2必须要指定 geo
	# geo = {
	# # 经纬度
	# "latitude": 39.9725,
	# "longitude": 116.4207
	# }
	data_spider.spider_some_search_note(query, query_num, cookies_str, base_path, 'all', sort_type_choice, note_type, note_time, note_range, pos_distance, geo=None)