背景描述

最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论，然后分析过滤出负面评论，依据最后的分析结果，可以做到提前发现问题、预防问题、解决或改善问题！

爬取思路

因为在一级页面里是拿不到我们想要的数据的，必须要进到二级页面，所以设计思路是，拿到一级页面的URL，再进行二级页面的数据抓取，两者可以同时进行。问题是，爬取一级页面的URL的时候，是采用Selenium模拟下拉网页的，获取的URL会有重复，如果直接把结果存到Redis数据库的话，会给数据库增加很多不必要的负担，但是如果直接用Redis集合进行存储，可以达到去重的目的，结果就是分布式工程无法从Redis集合拿到URL（分布式是从Redis队列拿数据）。
考虑到存储和效率问题，我的解决办法是使用了不同机器上的Redis（一个使用Redis集合，另一个用Redis队列），先存储到Redis集合，成功则返回1，已存在则返回0，返回值为1则存储到Redis队列。

爬虫分布式会自动对请求队列去重，那么如何对start_urls去重

浏览：413 2026-05-08

背景描述

爬取思路

继续阅读与本文标签相同的文章

2019年1-3季度吉林省初级形态的塑料产量同比增长18.74％

zabbix

特别推荐 2026年05月18日星期一

精彩发现

热门标签

爬虫分布式会自动对请求队列去重，那么如何对start_urls去重

浏览：413 2026-05-08

背景描述

爬取思路

继续阅读与本文标签相同的文章

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-05-18栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-24栏目： 教程

特别推荐 2026年05月18日 星期一

精彩发现

热门标签

相关文章

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-05-18栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-24栏目：教程

特别推荐 2026年05月18日星期一