背景描述
最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论,然后分析过滤出负面评论,依据最后的分析结果,可以做到提前发现问题、预防问题、解决或改善问题!
爬取思路
因为在一级页面里是拿不到我们想要的数据的,必须要进到二级页面,所以设计思路是,拿到一级页面的URL,再进行二级页面的数据抓取,两者可以同时进行。问题是,爬取一级页面的URL的时候,是采用Selenium模拟下拉网页的,获取的URL会有重复,如果直接把结果存到Redis数据库的话,会给数据库增加很多不必要的负担,但是如果直接用Redis集合进行存储,可以达到去重的目的,结果就是分布式工程无法从Redis集合拿到URL(分布式是从Redis队列拿数据)。
考虑到存储和效率问题,我的解决办法是使用了不同机器上的Redis(一个使用Redis集合,另一个用Redis队列),先存储到Redis集合,成功则返回1,已存在则返回0,返回值为1则存储到Redis队列。
继续阅读与本文标签相同的文章
下一篇 :
zabbix
-
阿里巴巴20周年年会结束以后,你知道发生了什么吗?
2026-05-18栏目: 教程
-
13年IT老兵:闷头做智能家居体系容易走火入魔
2026-05-18栏目: 教程
-
今天起,我要成为这样的阿里巴巴
2026-05-18栏目: 教程
-
中国智能家居的蝴蝶效应
2026-05-18栏目: 教程
-
2019年回顾 - Joomla前12名SEO扩展和插件
2026-05-18栏目: 教程
