XHS / main.py
Trae Bot
Upload Spider_XHS project
c481f8a
from xhs_utils.common_util import init
from xhs_utils.spider import Data_Spider
if __name__ == '__main__':
"""
此文件为爬虫的入口文件,可以直接运行
apis/xhs_pc_apis.py 为爬虫的api文件,包含小红书的全部数据接口,可以继续封装
apis/xhs_creator_apis.py 为小红书创作者中心的api文件
感谢star和follow
"""
cookies_str, base_path = init()
data_spider = Data_Spider()
"""
save_choice: all: 保存所有的信息, media: 保存视频和图片(media-video只下载视频, media-image只下载图片,media都下载), excel: 保存到excel
save_choice 为 excel 或者 all 时,excel_name 不能为空
"""
# 1 爬取列表的所有笔记信息 笔记链接 如下所示 注意此url会过期!
notes = [
r'https://www.xiaohongshu.com/explore/683fe17f0000000023017c6a?xsec_token=ABBr_cMzallQeLyKSRdPk9fwzA0torkbT_ubuQP1ayvKA=&xsec_source=pc_user',
]
data_spider.spider_some_note(notes, cookies_str, base_path, 'all', 'test')
# 2 爬取用户的所有笔记信息 用户链接 如下所示 注意此url会过期!
user_url = 'https://www.xiaohongshu.com/user/profile/64c3f392000000002b009e45?xsec_token=AB-GhAToFu07JwNk_AMICHnp7bSTjVz2beVIDBwSyPwvM=&xsec_source=pc_feed'
data_spider.spider_user_all_note(user_url, cookies_str, base_path, 'all')
# 3 搜索指定关键词的笔记
query = "榴莲"
query_num = 10
sort_type_choice = 0 # 0 综合排序, 1 最新, 2 最多点赞, 3 最多评论, 4 最多收藏
note_type = 0 # 0 不限, 1 视频笔记, 2 普通笔记
note_time = 0 # 0 不限, 1 一天内, 2 一周内天, 3 半年内
note_range = 0 # 0 不限, 1 已看过, 2 未看过, 3 已关注
pos_distance = 0 # 0 不限, 1 同城, 2 附近 指定这个1或2必须要指定 geo
# geo = {
# # 经纬度
# "latitude": 39.9725,
# "longitude": 116.4207
# }
data_spider.spider_some_search_note(query, query_num, cookies_str, base_path, 'all', sort_type_choice, note_type, note_time, note_range, pos_distance, geo=None)