什么是爬虫？Python爬虫工作需要掌握哪些技能？

　　网络爬虫是Python的应用领域之一，世界上80%的爬虫都是基于Python开发的，那么Python爬虫能干什么呢?我们一起来看看吧。

　　什么是爬虫?

　　网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，另外一些不常用的名字还有蚂蚁、自动索引、模拟程序或蠕虫。

　　通俗的来讲，就是通过程序去获取web网页上自己想要的数据，也就是自动抓取数据。

　　爬虫可以做什么?

　　你可以利用爬虫抓取图片、视频等等你想要的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取。

　　爬虫的本质是什么?

　　爬虫的本质主要是模拟浏览器打开网页，从而获取网页中我们想要的那部分数据。

　　从事Python爬虫工作需要懂什么?

　　学习Python基础知识并实现基本的爬虫过程：一般获取数据的过程都是按照发送请求-获得页面反馈-解析并且存储数据这三个流程来实现的。这个过程其实就是模拟了一个人工浏览网页的过程。

　　Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，我们可以按照requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

　　了解非结构化数据的存储：爬虫抓取的数据结构复杂传统的结构化数据库可能并不是特别适合我们使用。我们前期推荐使用MongoDB 就可以。

　　掌握一些常用的反爬虫技巧：使用代理IP池、抓包、验证码的OCR处理等处理方式即可以解决大部分网站的反爬虫策略。

　　了解分布式存储：分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具就可以。

更多相关文章