利用解析库解析豆瓣图书top250图书信息

小编 2026-06-16 阅读:237 评论:0
提取网页信息时用正则表达式还是比较繁琐,而且正则表达式太复杂时,有时还会出错,我们爬取的信息大多都是网页信息,网页HTML节点(标签)中定义了大量的id和class属性,而且节点之间还有层级关...

提取网页信息时用正则表达式还是比较繁琐,而且正则表达式太复杂时,有时还会出错,我们爬取的信息大多都是网页信息,网页HTML节点(标签)中定义了大量的id和class属性,而且节点之间还有层级关系。所以可以用解析库来解析信息。

三种解析库:

  • xpath

  • Beautiful Soup

  • PyQuery

利用解析库解析豆瓣图书top250信息并将解析的信息保存到本地。

1. 分析豆瓣图书top250网址

https://book.douban.com/top250?start=0

​ 当我们切换下一页时,只有start在改变,每页增加25,如第二页网址则为:

https://book.douban.com/top250?start=25
确定这个方便我们爬取后续的页数上的信息。

2. 分析网页源代码。

\"在这里插入图片描述\"

​ 利用浏览器自带的抓包工具可以分析出每本图书的信息放置在<tr class=‘item’>…</tr>中,右键查看网页源代码分析每本图书具体的具体信息

\"在这里插入图片描述\"

3. 编写爬虫代码

​ 爬虫部分主要分为三个部分:获取url并爬取网页内容、解析爬取回来的网页内容、保存解析出来的内容到本地。

  1. 获取url并爬取网页内容

    • 首先设置一个主函数main负责调用这个爬虫程序。
    def main(offset):
        \"\"\"主程序函数,调用\"\"\"
        url = \'https://book.douban.com/top250?start=\' + str(offset)
        # 获取url并爬取网页内容
        html = getPage(url)
        if html:
            # 解析爬取网页的内容
            for item in parsePage(html):  # 执行解析并遍历
                print(item)
                # 保存解析出来的内容到本地
                writeFile(item)
    
    
    # 判断当前是否为主程序,并调用主程序来爬取
    if __name__ == \'__main__\':
        # main(0)
        # 获取所有页数的网址
        for i in range(10):
            main(offset=i*25)
            time.sleep(1)
    
    • 编写getPage函数获取url地址并爬取
    def getPage(url):
        \"\"\"爬取指定url地址的信息\"\"\"
        try:
                # 定义请求头信息
                headers = {\'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36\'}
                # 执行爬取
                res = requests.get(url, headers=headers)
                if res.status_code ==200:
                    # 返回爬取网页的内容
                    return res.text
                else:
                    return None
        except RequestException as e:
                print(e)
                return None
    
    • 编写parsePage函数解析爬取回来的网页中的内容。

      这里我用了pyquery来解析网页内容,如果有兴趣知道其他两种解析库的使用的话,可访问我的GitHub网址:https://github.com/silas9187/Python_Web_crawler/blob/master/basic spider/DouBan-top250.py,
      (觉得不错可以在GitHub(页面右上角)上给我点赞,谢谢)

      def parsePage(content):
          \"\"\"解析爬取网页中的内容,并返回结果\"\"\"
      	# 使用pyquery解析内容
      	# 初始化,返回pyquery对象
          doc = PyQuery(content)
          # 解析网页中所需要的<tr class=\"item\">...</tr>中的内容
          items = doc(\"tr.item\")
          # print(len(items))
          # 遍历并解析每本图书的具体信息
          for item in items.items():  # 注意!注意! 注意!要将item转换为可迭代的遍历器
              # 返回字典格式的item到下个函数
              yield {
                  # 获取图书名字
                  \'title\': item.find(\"div.pl2 a\").text().strip().replace(\'\\n\', \'\').replace(\' \', \'\'),
                  # 获取图书的图片
                  \'image\': item.find(\"a.nbg img\").attr(\'src\'),
                  # 获取图书的作者
                  \'author\': item.find(\"p.pl\").text(),
                  # 获取图书的评价分数
                  \'score\': item.find(\"span.rating_nums\").text(),
              }
      
    • 编写writeFile函数保存解析出来的内容到本地。

      def writeFile(content):
          \"\"\"保存爬取内容\"\"\"
          with open(\"./result.txt\", \'a\', encoding=\'utf-8\') as f:
              f.write(json.dumps(content, ensure_ascii=False)+\'\\n\')  # dumps方法将字典转化为可写入到文件中的json字符串
      

4. 运行代码

​ 运行后可以发现当前目录下生成了result.txt文件,里面就是我们爬取的信息 。

​ 完整代码:https://github.com/silas9187/Python_Web_crawler/blob/master/basic spider/DouBan-top250.py
最后,如果觉得对你有帮助的话,请点个赞,支持一波

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。

热门文章
  • 机房智能化温湿度解决方式之POE供电以太网温湿度传感器

    机房智能化温湿度解决方式之POE供电以太网温湿度传感器
    机房智能化温湿度解决方式之POE供电以太网温湿度传感器 北京盈创力和电子科技有限公司 智能型TCP网口温湿度记录仪 北京IP网络温湿度记录仪厂家,北京盈创力和 北京智能型TCP网口温湿度记录仪IP网络温湿度记录仪是一种新型的基于TCP/IP协议双绞线以太网标准温湿度采集模块,利用它可以实现现场温度值、相对湿度值的采集,同时利用其自身的RJ45通信接口可以方便地和机房监控主机或交换机集线器进行联网。 工作于-40℃~85℃工业级带...
  • Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering

    Sequential Monte Carlo Methods (SMC) 序列蒙特卡洛/粒子滤波/Bootstrap Filtering
    Problem Statement 我们考虑一个具有马尔可夫性质、非线性、非高斯的状态空间模型(State Space Model):对于一个时间序列上的观测结果{yt,t∈N}\\{ y_t , t \\in N \\}{yt​,t∈N},我们认为每个观测结果yty_tyt​的生成依赖于一个无法直接观察的隐变量xt∈{xt,t∈N}x_t \\in \\{x_t , t \\in N \\}xt​∈{xt​,t∈N},即:p(...
  • HTTP状态保持的原理

    HTTP状态保持的原理
    a)在用户登录之后,浏览器返回响应的时候会在响应中添加上cookieb)浏览器接收到cookie之后会自动保存c)当用户再次请求同一服务器中的其他网页的时候,浏览器会自动带上之前保存的cookied)服务接收到请求之后可以请 request 对象中取到cookie 判断当前用户是否登录  Http是无状态的,就是连接时数据互通,关闭后...
  • Hive 系统函数及示例

    Hive 系统函数及示例
    查看所有系统函数 show functions; 函数分类 内置函数【系统函数】 数学函数: floor、round、ceil、cos、log2等 字符串函数: length、reverse、trim、lower、get_json_object、repeat等 收集函数: size 转换函数: cast 日期函数: year、month、datediff、date、date_add等 条件函数: coalesce、case…w...
  • CSRF的原理和防范措施

    CSRF的原理和防范措施
    a)攻击原理:i.用户C访问正常网站A时进行登录,浏览器保存A的cookieii.用户C再访问攻击网站B,网站B上有某个隐藏的链接或者图片标签会自动请求网站A的URL地址,例如表单提交,传指定的参数iii.而攻击网站B在访问网站A的时候,浏览器会自动带上网站A的cookieiv.所以网站A在接收到请求之后可判断当前用户是登录状态,所以...
标签列表