带你读《从零开始学Scrapy网络爬虫》之二：网络爬虫基础

浏览：1082 2026-05-16

点击查看第一章
 点击查看第三章

第2章网络爬虫基础

　　网络爬虫实现的思想是模拟用户使用浏览器向网站发送请求，网站响应请求后，将HTML文档发送过来，爬虫再对网页做信息提取和存储。因此，了解浏览器与网站服务器之间的通信方式和交互过程，理解HTML页面的组织和结构，掌握页面信息的提取和存储技术，能进一步加深对网络爬虫原理的理解。

2.1 HTTP基本原理

　　下面来看一下用户从浏览器输入某个网址到获取网站内容的整个过程。该过程主要分为4个步骤，如图2-1所示。

图2-1 访问网站的过程

　　（1）在浏览器中输入URL地址（如百度地址https://www.baidu.com），然后回车。
　　（2）在浏览器中向网站服务器发送请求访问的命令。
　　（3）网站服务器响应请求后，向浏览器发送HTML文档（也可以是图片、视频和JSON数据等其他资源）

继续阅读与本文标签相同的文章

None

上一篇 :

带你读《Flink原理、实战与性能优化》之二：环境准备

下一篇 :

阿里云主机双11优惠活动云服务器团购价低至86元/年

热门标签

1阻止表单提交 1篇

3关闭浏览器 1篇

6css文件 1篇

7光标位置 1篇

9javascrpt 1篇

10!important 1篇

11超链接 2篇

14自定义 1篇

20自动填充 1篇

21html敏捷包 1篇

23水平垂直居中 1篇

24百分比 1篇

25placeholder 1篇

26相同高度 2篇

27并排div 2篇

29innerHTML 1篇

30pdf文件 1篇

31html文件 1篇

32选择框 1篇

33屏幕可见区 1篇

34DOM元素 2篇

您的足迹：