如今采集数据的方法发展的已经比较成熟了,对于常用的网站和结构化的网站,可以使用数据采集软件进行数据采集。优点是不用写代码,基本不需要HTML知识,可视化操作,方便直观。缺点是不够灵活,但对于基本的需求已经够用了。
这里主要介绍中国公司开发的数据采集软件,其实都大同小异,我主要用过:火车头采集器、后羿采集器 和 webscraper浏览器插件

这些软件大部分包含免费和付费功能。一般免费就够用。
有一个思路我认为是比较正确的,就是对于常用网站,前人已经写好了很多爬虫框架,拿来用就可以。比如 gooseeker集搜客 和 webscraper浏览器插件 的网站上,就有很多现成的写好的。
对于一些比较特殊的数据,比如高德地图上商家的数据,我还遇到过不同地图坐标系不一样还要转换的问题。还有很多反爬策略等等。这些相对困难一些 ,有专门的公司和专门的软件在做,不在这些“傻瓜”软件的使用范围之内。
| 名称 | 网址 | 简介 |
| 八爪鱼采集器 | https://www.bazhuayu.com/ | |
| 火车头采集器 | http://www.locoy.com/ | |
| 神采 | http://www.sensite.cn/ | |
| 探码Web大数据采集系统 | http://www.tanmer.com/web-bigdata | |
| 后裔采集器 | http://www.houyicaiji.com/ | |
| 爬山虎采集器 | http://www.51pashanhu.com/ | |
| ForeSpider前嗅 | http://forenose.com/download.html | |
| gooseeker集搜客 | http://www.gooseeker.com/ | |
| 发源地 | http://www.finndy.com/ | |
| 神箭手云爬虫 | https://www.shenjian.io/ | |
| 小草莓-全网采集助手 | http://www.caomeixiao.com/ | |
| WebMagic | http://webmagic.io/ | 一个简单灵活的Java爬虫框架 |
| DenseSpider | https://studygolang.com/p/DenseSpider | Go语言实现的高性能爬虫 |
| scrapinghub | https://www.scrapinghub.com/ | |
| prasehub | https://www.parsehub.com/ | |
| Octoparse | https://www.octoparse.com/ | 国外软件 |
| webscraper浏览器插件 | http://www.iwebscraper.com/ | |
