如何用Scrapy爬取平台资源数据采集

作者:wangsouyun    来源:未知    发布时间:2018-11-09 16:39    浏览量:
如何用Scrapy爬取平台资源数据采集
一、什么是爬虫
爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
二、Python爬虫架构
Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。
下面用一个图来解释一下调度器是如何协调工作的:
python爬虫视频教程+源代码+开发思路,限时免费领取
三、urllib2 实现下载网页的三种方式
四、第三方库 Beautiful Soup 的安装
Beautiful Soup: Python 的第三方插件用来提取 xml 和 HTML 中的数据,
1、安装 Beautiful Soup
打开 cmd(命令提示符),进入到 Python(Python2.7版本)安装目录中的 scripts 下,输入 dir 查看是否有 pip.exe, 如果用就可以使用 Python 自带的 pip 命令进行安装,输入以下命令进行安装即可:
2、测试是否安装成功
编写一个 Python 文件,输入:
运行该文件,如果能够正常输出则安装成功。
五、使用 Beautiful Soup 解析 html 文件
Scrapy 爬虫框架是由 7+2 的结构构成: 引擎(Scrapy Engine) 、调度器(Schedule) 、下载器(Downloader) 、爬虫(Spider) 、项目通道(Item Pipeline) 和 下载中间器(Downloader Middlewares) 、爬虫中间器(Spider Middlewares) 。
经典爬虫:用Scrapy爬取百度股票
Scrapy 中的数据流(Data flow)由执行引擎控制,如下所示:
更多 Scrapy 信息参考官方文档:
创建 Scrapy 项目
在电脑配置好 Scrapy 后,
在 D 盘 创建名为 pycodes 的文件夹。
打开 cmd 命令窗口,进入 D 盘 根目录后键入:
stocks.py
pipelines.py
类 BaiduStocksPipeline 有三个函数: open_item 、 close_item 、 process_item 。
至此,代码编写完成,运行程序,结果会保存在一个名为 baiduStockInfo 的 txt 文件中。
下一篇:没有了

相关新闻推荐

关注官方微信

Copyright © 众万工作室 版权所有网站地图 正在申请