前言
xpath难点
在使用scrapy做爬取网页的时候,规则的匹配是关键。如:sel.xpath(‘//ul[@id=”dirlist”]/li/dl/dt’)的正确配置。
如何进行xpath的正确配置呢? Scrapy shell交互终端是一个可供较快调试、验证配置结果的好工具。
1、Scrapy Shell介绍
Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。
其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码。
该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。
一旦熟悉了Scrapy终端
继续阅读与本文标签相同的文章
上一篇 :
如何区分虚拟网卡和物理网卡?
下一篇 :
Mysql数据库表分区深入详解
-
POLARDB for Oracle初步体验报告
2026-05-24栏目: 教程
-
使用阿里云邮件推送服务群发邮件
2026-05-24栏目: 教程
-
阿里云产品代金券如何使用?—阿里云助力用户上云(精)
2026-05-24栏目: 教程
-
java的线程安全
2026-05-24栏目: 教程
-
突破Java面试(25)-Redis集群模式的原理
2026-05-24栏目: 教程
