利用解析库解析豆瓣图书top250图书信息

小编 2026-06-16 阅读:237 评论:0

提取网页信息时用正则表达式还是比较繁琐，而且正则表达式太复杂时，有时还会出错，我们爬取的信息大多都是网页信息，网页HTML节点(标签)中定义了大量的id和class属性，而且节点之间还有层级关...

提取网页信息时用正则表达式还是比较繁琐，而且正则表达式太复杂时，有时还会出错，我们爬取的信息大多都是网页信息，网页HTML节点(标签)中定义了大量的id和class属性，而且节点之间还有层级关系。所以可以用解析库来解析信息。

三种解析库：

xpath
Beautiful Soup
PyQuery

利用解析库解析豆瓣图书top250信息并将解析的信息保存到本地。

1. 分析豆瓣图书top250网址

https://book.douban.com/top250?start=0

当我们切换下一页时，只有start在改变，每页增加25,如第二页网址则为：

https://book.douban.com/top250?start=25
确定这个方便我们爬取后续的页数上的信息。

2. 分析网页源代码。

$\"在这里插入图片描述\"$

利用浏览器自带的抓包工具可以分析出每本图书的信息放置在<tr class=‘item’>…</tr>中，右键查看网页源代码分析每本图书具体的具体信息

$\"在这里插入图片描述\"$

3. 编写爬虫代码

爬虫部分主要分为三个部分：获取url并爬取网页内容、解析爬取回来的网页内容、保存解析出来的内容到本地。

获取url并爬取网页内容

首先设置一个主函数main负责调用这个爬虫程序。

def main(offset):
    \"\"\"主程序函数，调用\"\"\"
    url = \'https://book.douban.com/top250?start=\' + str(offset)
    # 获取url并爬取网页内容
    html = getPage(url)
    if html:
        # 解析爬取网页的内容
        for item in parsePage(html):  # 执行解析并遍历
            print(item)
            # 保存解析出来的内容到本地
            writeFile(item)


# 判断当前是否为主程序，并调用主程序来爬取
if __name__ == \'__main__\':
    # main(0)
    # 获取所有页数的网址
    for i in range(10):
        main(offset=i*25)
        time.sleep(1)

编写getPage函数获取url地址并爬取

def getPage(url):
    \"\"\"爬取指定url地址的信息\"\"\"
    try:
            # 定义请求头信息
            headers = {\'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36\'}
            # 执行爬取
            res = requests.get(url, headers=headers)
            if res.status_code ==200:
                # 返回爬取网页的内容
                return res.text
            else:
                return None
    except RequestException as e:
            print(e)
            return None

编写parsePage函数解析爬取回来的网页中的内容。

这里我用了pyquery来解析网页内容，如果有兴趣知道其他两种解析库的使用的话，可访问我的GitHub网址：https://github.com/silas9187/Python_Web_crawler/blob/master/basic spider/DouBan-top250.py，
（觉得不错可以在GitHub（页面右上角）上给我点赞，谢谢）

def parsePage(content):
    \"\"\"解析爬取网页中的内容，并返回结果\"\"\"
	# 使用pyquery解析内容
	# 初始化，返回pyquery对象
    doc = PyQuery(content)
    # 解析网页中所需要的<tr class=\"item\">...</tr>中的内容
    items = doc(\"tr.item\")
    # print(len(items))
    # 遍历并解析每本图书的具体信息
    for item in items.items():  # 注意！注意！ 注意！要将item转换为可迭代的遍历器
        # 返回字典格式的item到下个函数
        yield {
            # 获取图书名字
            \'title\': item.find(\"div.pl2 a\").text().strip().replace(\'\\n\', \'\').replace(\' \', \'\'),
            # 获取图书的图片
            \'image\': item.find(\"a.nbg img\").attr(\'src\'),
            # 获取图书的作者
            \'author\': item.find(\"p.pl\").text(),
            # 获取图书的评价分数
            \'score\': item.find(\"span.rating_nums\").text(),
        }

编写writeFile函数保存解析出来的内容到本地。

def writeFile(content):
    \"\"\"保存爬取内容\"\"\"
    with open(\"./result.txt\", \'a\', encoding=\'utf-8\') as f:
        f.write(json.dumps(content, ensure_ascii=False)+\'\\n\')  # dumps方法将字典转化为可写入到文件中的json字符串

4. 运行代码

运行后可以发现当前目录下生成了result.txt文件，里面就是我们爬取的信息。

完整代码：https://github.com/silas9187/Python_Web_crawler/blob/master/basic spider/DouBan-top250.py
最后，如果觉得对你有帮助的话，请点个赞，支持一波

版权声明

本文仅代表作者观点，不代表百度立场。
本文系作者授权百度百家发表，未经许可，不得转载。

上一篇：设计模式的六大原则 下一篇：单一职责原则（设计模式六中）

利用解析库解析豆瓣图书top250图书信息

三种解析库：

xpath

Beautiful Soup

PyQuery

利用解析库解析豆瓣图书top250信息并将解析的信息保存到本地。

1. 分析豆瓣图书top250网址

2. 分析网页源代码。

3. 编写爬虫代码

4. 运行代码

版权声明

热门文章

机房智能化温湿度解决方式之POE供电以太网温湿度传感器

Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

HTTP状态保持的原理

Hive 系统函数及示例

CSRF的原理和防范措施

最近发表

标签列表

利用解析库解析豆瓣图书top250图书信息

三种解析库：

xpath

Beautiful Soup

PyQuery

利用解析库解析豆瓣图书top250信息并将解析的信息保存到本地。

1. 分析豆瓣图书top250网址

2. 分析网页源代码。

3. 编写爬虫代码

4. 运行代码

版权声明

相关阅读

表单的提交方式&&request对象的方法：

JsChart组件使用

【线程九讲】三、线程访问变量

Flutter升级到预览版(入坑)

VUE2.0增删改查附编辑添加model(弹框)组件共用

【省内训练2018-12-23】Tree

热门文章

机房智能化温湿度解决方式之POE供电以太网温湿度传感器

Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

HTTP状态保持的原理

Hive 系统函数及示例

CSRF的原理和防范措施

最近发表

标签列表