from xhs_utils.common_util import init from xhs_utils.spider import Data_Spider if __name__ == '__main__': """ 此文件为爬虫的入口文件,可以直接运行 apis/xhs_pc_apis.py 为爬虫的api文件,包含小红书的全部数据接口,可以继续封装 apis/xhs_creator_apis.py 为小红书创作者中心的api文件 感谢star和follow """ cookies_str, base_path = init() data_spider = Data_Spider() """ save_choice: all: 保存所有的信息, media: 保存视频和图片(media-video只下载视频, media-image只下载图片,media都下载), excel: 保存到excel save_choice 为 excel 或者 all 时,excel_name 不能为空 """ # 1 爬取列表的所有笔记信息 笔记链接 如下所示 注意此url会过期! notes = [ r'https://www.xiaohongshu.com/explore/683fe17f0000000023017c6a?xsec_token=ABBr_cMzallQeLyKSRdPk9fwzA0torkbT_ubuQP1ayvKA=&xsec_source=pc_user', ] data_spider.spider_some_note(notes, cookies_str, base_path, 'all', 'test') # 2 爬取用户的所有笔记信息 用户链接 如下所示 注意此url会过期! user_url = 'https://www.xiaohongshu.com/user/profile/64c3f392000000002b009e45?xsec_token=AB-GhAToFu07JwNk_AMICHnp7bSTjVz2beVIDBwSyPwvM=&xsec_source=pc_feed' data_spider.spider_user_all_note(user_url, cookies_str, base_path, 'all') # 3 搜索指定关键词的笔记 query = "榴莲" query_num = 10 sort_type_choice = 0 # 0 综合排序, 1 最新, 2 最多点赞, 3 最多评论, 4 最多收藏 note_type = 0 # 0 不限, 1 视频笔记, 2 普通笔记 note_time = 0 # 0 不限, 1 一天内, 2 一周内天, 3 半年内 note_range = 0 # 0 不限, 1 已看过, 2 未看过, 3 已关注 pos_distance = 0 # 0 不限, 1 同城, 2 附近 指定这个1或2必须要指定 geo # geo = { # # 经纬度 # "latitude": 39.9725, # "longitude": 116.4207 # } data_spider.spider_some_search_note(query, query_num, cookies_str, base_path, 'all', sort_type_choice, note_type, note_time, note_range, pos_distance, geo=None)