爬虫实践：专注网页下载，以新浪财经个股页面为例

财经新浪股票首页_股票新浪财经_财经新浪股票首页600108

在本文的爬虫实践中将注意力放在网页本身，尝试通过爬虫程序来批量下载HTML网页。之前的爬虫程序一般通过定位网页元素的方法来获取所需要的信息，但因为这里的新任务是下载网页，所以想要获取的信息其实就是整个网页。这里需要将访问得到的网页作为一个HTML保存下来，在这个过程中，通过BeautifulSoup等网页解析工具能够实现对网页信息的高效筛选，去除一些用户并不感兴趣的信息(如广告等)。

编写爬虫

新浪财经的个股页面是本次爬取的主要目标，新浪对于某一个股(沪深股市个股)的资讯页面使用类似的网页形式(见图6-1)，本节想设计程序爬取某一个股(以其股票代码作为标识)下资讯页面中的所有资讯文章，并将它们保存到本地。

财经新浪股票首页_股票新浪财经_财经新浪股票首页600108

图6-1新浪财经的个股页面

对于这个爬取目标而言在线炒股配资公司，用户不难看出主要需要关注两个步骤：一是访问个股股票代码对应的资讯页面，并通过解析网页的方式获取资讯文章URL地址的列表；二是根据文章URL访问网页并保存其信息。个股资讯文章类似于图6-2。

财经新浪股票首页_财经新浪股票首页600108_股票新浪财经

图6-2某只股票的一篇资讯页面

不过，用户很快就会发现，股票资讯文章页面中充斥着一些自己并不需要的广告或者新浪财经推送信息，为了去掉这些信息，可以使用BeautifulSoup中的decompose()方法去掉一个节点(该函数的作用是将当前节点移除文档树并完全销毁)，接下来唯一要做的便是利用Chrome开发者工具分析并列出广告元素炒股配资网站，如图6-3所示。

财经新浪股票首页_股票新浪财经_财经新浪股票首页600108

图6-3分析页面内容中的广告元素

经过上面的设计和分析，最终编写出实现爬取、清洗和保存网页这一流程的程序，见例6-1，语句的说明解释详见代码注释。

【例6-1】新浪财经新闻页面的爬取、清洗与保存。

财经新浪股票首页600108_股票新浪财经_财经新浪股票首页

股票新浪财经_财经新浪股票首页_财经新浪股票首页600108

财经新浪股票首页600108_股票新浪财经_财经新浪股票首页

财经新浪股票首页_财经新浪股票首页600108_股票新浪财经

财经新浪股票首页_股票新浪财经_财经新浪股票首页600108

当然，这个程序还存在一些问题，主要有二，首先是在保存HTML内容到本地的过程中使用了相当原始的文件IO，实际上在大批量爬取时将HTML信息保存在数据库(如MongoDB)中是比较好的选择；其次配资网平台，在广告元素清洗的语句部分冗余较多，仍然存在很大的改进余地，可以考虑将待清洗元素规则统一保存到另一个文本文件中，通过一个读取函数进行加载。

运行并查看结果

运行上面的爬取程序，用户会看到控制台产生如图6-4所示的输出。

财经新浪股票首页_财经新浪股票首页600108_股票新浪财经