Scrapy框架入门

Python语言的Scrapy爬虫框架是一套适合入门Python编程以及进行爬虫的优秀框架，本文以爬取豆瓣高分电影Top250为例进行代码的简单阐述。

一、环境

windows
python3.6.4
scrapy1.5.1
明白Python的基本语法系列

二、知识点

xpath
文字内容爬取并存本地文件
翻页爬取
图片爬取并存本地
简单的反爬虫
数据存数据库（mysql）
日志
网站地址：https://movie.douban.com/top250

三、项目构建及文件说明

1、项目创建

1	scrapy startproject Douban

2、项目初始化

1 2	cd Douban scrapy genspider douban "douban.com"

3、各文件说明

四、xpath解析说明

以Chrome插件（XPath Helper）为例。

1	//ol[@class='grid_view']/li/div[@class='item']

即可解析出所有的电影信息模块，然后循环遍历进行处理即可。

PS：“//”即代表从任意路径下开始寻找

五、字段设置

即 item.py 文件。

#&nbsp;电影名字
film_name&nbsp;=&nbsp;scrapy.Field()
#&nbsp;导演和主演名字
director_performer_name&nbsp;=&nbsp;scrapy.Field()
#&nbsp;主演名字
#&nbsp;performer_name&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影上映年份
film_year&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影国家
film_country&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影类型
film_type&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影评分
film_rating&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影评论人数
film_reviews_num&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影经典语句
film_quato&nbsp;=&nbsp;scrapy.Field()
#&nbsp;电影图片
film_img_url&nbsp;=&nbsp;scrapy.Field()

六、爬虫编写

即 douban.py 文件。

以下代码，注释很详细，细节暂不赘述，简单提一下 yield 的用法：

yield 是个很重要的语法，有着 return 的部分功能，但完全不同于 return。

return 会返回信息并且终止当前的方法，而 yield 虽然也会返回一个信息给调用者，但是调用者使用完了之后程序还会回到此处继续执行。

比如用在此爬虫的 for 循环中的妙处是：此处生成 item 之后返回给调度器进行相关的处理，然后程序再回到这里继续运行，即继续下一个循环，然后再生成一个新的 item 提供给调度器，如此往复，直到循环结束。

#&nbsp;爬虫名称（必须唯一）
name&nbsp;=&nbsp;&#39;douban&#39;
#&nbsp;非此域名下的链接均不进行爬取
allowed_domains&nbsp;=&nbsp;[&#39;douban.com&#39;]
base_url&nbsp;=&nbsp;&#39;https://movie.douban.com/top250&#39;
off_set&nbsp;=&nbsp;&#39;?start=0&filter=&#39;
#&nbsp;起始的爬取地址
start_urls&nbsp;=&nbsp;[base_url&nbsp;+&nbsp;off_set]
#&nbsp;每次的爬取都会默认走这个&nbsp;parse&nbsp;方法
def&nbsp;parse(self,&nbsp;response):
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;xpath&nbsp;解析出每个电影的信息模块
&nbsp;&nbsp;&nbsp;&nbsp;films&nbsp;=&nbsp;response.xpath("//ol[@class=&#39;grid_view&#39;]/li/div[@class=&#39;item&#39;]")
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;遍历每个电影模块
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;film&nbsp;in&nbsp;films:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;创建电影信息存储的item对象
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item&nbsp;=&nbsp;DoubanItem()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;标题
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;titles&nbsp;=&nbsp;film.xpath("./div[@class=&#39;info&#39;]/div[@class=&#39;hd&#39;]/a/span/text()").extract()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_name&nbsp;=&nbsp;&#39;&#39;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;拼接电影名
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;title&nbsp;in&nbsp;titles:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_name&nbsp;+=&nbsp;title.strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;电影信息
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;infos&nbsp;=&nbsp;film.xpath("./div[@class=&#39;info&#39;]/div[@class=&#39;bd&#39;]/p/text()").extract()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;director_performer_name&nbsp;=&nbsp;""
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;temp&nbsp;in&nbsp;infos[0]:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;director_performer_name&nbsp;+=&nbsp;temp.strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;year_country&nbsp;=&nbsp;infos[1]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_year&nbsp;=&nbsp;year_country.split("/")[0].strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_country&nbsp;=&nbsp;year_country.split("/")[1].strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_type&nbsp;=&nbsp;year_country.split("/")[2].strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;电影评分
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_rating&nbsp;=&nbsp;film.xpath("./div[@class=&#39;info&#39;]/div[@class=&#39;bd&#39;]/div[@class=&#39;star&#39;]/span[@class=&#39;rating_num&#39;]/text()").extract()[0].strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;电影参与评论人数
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_reviews_num&nbsp;=&nbsp;film.xpath("./div[@class=&#39;info&#39;]/div[@class=&#39;bd&#39;]/div[@class=&#39;star&#39;]/span[last()]/text()").extract()[0].strip()[:-3]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;电影经典语句
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_quato&nbsp;=&nbsp;""
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_quato_temp&nbsp;=&nbsp;film.xpath("./div[@class=&#39;info&#39;]/div[@class=&#39;bd&#39;]/p[@class=&#39;quote&#39;]/span/text()").extract()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;film_quato_temp:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_quato&nbsp;=&nbsp;film_quato_temp[0].strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;电影图片链接
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_img_url&nbsp;=&nbsp;film.xpath("./div[@class=&#39;pic&#39;]/a/img/@src").extract()[0].strip()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;item&nbsp;字段赋值
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_name&#39;]&nbsp;=&nbsp;film_name
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;director_performer_name&#39;]&nbsp;=&nbsp;director_performer_name
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;item[&#39;director_name&#39;]&nbsp;=&nbsp;director_name
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;item[&#39;performer_name&#39;]&nbsp;=&nbsp;performer_name
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_year&#39;]&nbsp;=&nbsp;film_year
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_country&#39;]&nbsp;=&nbsp;film_country
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_type&#39;]&nbsp;=&nbsp;film_type
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_rating&#39;]&nbsp;=&nbsp;film_rating
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_reviews_num&#39;]&nbsp;=&nbsp;film_reviews_num
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_quato&#39;]&nbsp;=&nbsp;film_quato
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_img_url&#39;]&nbsp;=&nbsp;film_img_url
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;返回&nbsp;item&nbsp;进行解析，解析完了之后再回到这里继续运行
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;item
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;翻页
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;解析出下一页
&nbsp;&nbsp;&nbsp;&nbsp;next_url&nbsp;=&nbsp;response.xpath("//div[@class=&#39;paginator&#39;]/span[@class=&#39;next&#39;]/a/@href").extract()
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;next_url:
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;如果下一页存在的话再进行请求，并传递回调函数&nbsp;parse()
&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;scrapy.Request(self.base_url&nbsp;+&nbsp;next_url[0],&nbsp;self.parse)

七、“管道”说明

即 pipelines.py 文件。

说明：正如其名“管道”，它是用来处理 item 的，所以，我们可以写多个“管道”文件来处理 item，但是要注意：

① 每个“管道”处理完之后记得 return item，否则后续管道无法再进行处理，毕竟拿不到了嘛；

② 管道是有执行顺序的，所以需要我们进行定义其顺序（settings.py 文件），数字小，先执行：

&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;Configure&nbsp;item&nbsp;pipelines&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;See&nbsp;https://doc.scrapy.org/en/latest/topics/item-pipeline.html
&nbsp;&nbsp;&nbsp;&nbsp;ITEM_PIPELINES&nbsp;=&nbsp;{
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&#39;Douban.pipelines.DoubanMoviePipeline&#39;:&nbsp;300,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&#39;Douban.pipelines.DoubanImgPipeline&#39;:&nbsp;301,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&#39;Douban.pipelines.DoubanDBPipeline&#39;:&nbsp;400
&nbsp;&nbsp;&nbsp;&nbsp;}

1、文本内容存本地文件

即配置里面的：'Douban.pipelines.DoubanMoviePipeline': 300,

也是比较简单，看下文代码的注释即可，但是要注意编码。

class&nbsp;DoubanMoviePipeline(object):
&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;处理电影信息
&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;__init__(self):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;初始化：文件打开
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.f&nbsp;=&nbsp;codecs.open("doubanData.json",&nbsp;mode="w",&nbsp;encoding="utf-8")
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;process_item(self,&nbsp;item,&nbsp;spider):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;内容，结尾增加了换行
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;content&nbsp;=&nbsp;json.dumps(dict(item),&nbsp;ensure_ascii=False)&nbsp;+&nbsp;",\n"
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;内容写入文件
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.f.write(content)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;一定要记得&nbsp;return，否则之后的&nbsp;pipeline&nbsp;拿不到&nbsp;item，也就没法继续处理了
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;item
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;close_spider(self,&nbsp;spider):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;爬虫关闭时进行：文件关闭
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.f.close()

2、图片内容保存本地

我们写在同一个“管道”文件里面。

注意继承类：ImagesPipeline，源码见：D:\IT\Python\Python36\Lib\site-packages\scrapy\pipelines\images.py

注意在 settings.py 中设置图片的下载路径：IMAGES_STORE = “D:\IT\Python\workspace\SpiderDemo\Douban\images\\”

代码同样比较简单，见下面的注释即可，注意，此处进行了文件重命名操作，并有打异常日志，日志后面会讲到。

class&nbsp;DoubanImgPipeline(ImagesPipeline):
&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;处理图片信息
&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;get_media_requests(self,&nbsp;item,&nbsp;info):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;图片下载
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_img_url&nbsp;=&nbsp;item[&#39;film_img_url&#39;]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;yield&nbsp;scrapy.Request(film_img_url)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;item_completed(self,&nbsp;results,&nbsp;item,&nbsp;info):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;图片重命名
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;获取文件下载的路径
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;path&nbsp;=&nbsp;[x[&#39;path&#39;]&nbsp;for&nbsp;ok,&nbsp;x&nbsp;in&nbsp;results&nbsp;if&nbsp;ok]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;原始的完整路径
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_img_disk_url1&nbsp;=&nbsp;settings.IMAGES_STORE&nbsp;+&nbsp;path[0]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;准备存放的新的完整路径
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;film_img_disk_url&nbsp;=&nbsp;settings.IMAGES_STORE&nbsp;+&nbsp;&#39;full\\&#39;&nbsp;+&nbsp;item[&#39;film_name&#39;].split("/")[0].strip()&nbsp;+&nbsp;".jpg"
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;try:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;重命名
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;os.rename(film_img_disk_url1,&nbsp;film_img_disk_url)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;except&nbsp;Exception&nbsp;as&nbsp;error:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Logger(logLevel=&#39;error&#39;).getLogger().error("图片重命名失败，异常信息：%s"&nbsp;%&nbsp;error)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pass
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;item

3、数据存数据库

还是写在同一个“管道”文件里面。

“管道”配置为：'Douban.pipelines.DoubanDBPipeline': 400

settings.py 中配置数据库信息：

&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;mysql&nbsp;设置&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;MYSQL_HOST&nbsp;=&nbsp;&#39;localhost&#39;
&nbsp;&nbsp;&nbsp;&nbsp;MYSQL_PORT&nbsp;=&nbsp;3380
&nbsp;&nbsp;&nbsp;&nbsp;MYSQL_DBNAME&nbsp;=&nbsp;&#39;scrapy&#39;
&nbsp;&nbsp;&nbsp;&nbsp;MYSQL_USER&nbsp;=&nbsp;&#39;root&#39;
&nbsp;&nbsp;&nbsp;&nbsp;MYSQL_PASSWD&nbsp;=&nbsp;&#39;root&#39;

代码理解也不困难，见注释即可，此处进行了简单的查重处理。

class&nbsp;DoubanDBPipeline(object):
&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;数据存入mysql
&nbsp;&nbsp;&nbsp;&nbsp;"""
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;__init__(self):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;连接数据库
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.connect&nbsp;=&nbsp;pymysql.connect(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;host=settings.MYSQL_HOST,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;port=settings.MYSQL_PORT,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;db=settings.MYSQL_DBNAME,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;user=settings.MYSQL_USER,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;passwd=settings.MYSQL_PASSWD,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;charset=&#39;utf8mb4&#39;,
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;use_unicode=True
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.cursor&nbsp;=&nbsp;self.connect.cursor()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;process_item(self,&nbsp;item,&nbsp;spider):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;try:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;数据库查重
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.cursor.execute(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"""select&nbsp;film_name&nbsp;from&nbsp;douban_movie_top_250&nbsp;where&nbsp;film_name&nbsp;=&nbsp;%s&nbsp;and&nbsp;film_img_url&nbsp;=&nbsp;%s""",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(item[&#39;film_name&#39;],&nbsp;item[&#39;film_img_url&#39;])
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;查重
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;repetition&nbsp;=&nbsp;self.cursor.fetchone()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;repetition:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;数据重复
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Logger().getLogger().info("数据重复，film_name:&nbsp;%s，film_img_url：%s"&nbsp;%&nbsp;(item[&#39;film_name&#39;],&nbsp;item[&#39;film_img_url&#39;]))
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pass
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;else:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;插数据
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.cursor.execute(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;"""insert&nbsp;into&nbsp;douban_movie_top_250(film_name,&nbsp;director_performer_name,&nbsp;film_year,&nbsp;film_country,&nbsp;film_type,&nbsp;film_rating,&nbsp;film_reviews_num,&nbsp;film_quato,&nbsp;film_img_url)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;VALUE&nbsp;(%s,&nbsp;%s,&nbsp;%s,&nbsp;%s,&nbsp;%s,&nbsp;%s,&nbsp;%s,&nbsp;%s,&nbsp;%s)""",
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_name&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;director_performer_name&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_year&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_country&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_type&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_rating&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_reviews_num&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_quato&#39;],
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;item[&#39;film_img_url&#39;]
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;sql提交
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.connect.commit()
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;except&nbsp;Exception&nbsp;as&nbsp;error:
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Logger(logLevel=&#39;error&#39;).getLogger().error("数据插入数据库失败",&nbsp;error)
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;item
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;def&nbsp;close_spider(self,&nbsp;spider):
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;关闭数据库连接
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.connect.close()

八、简单的反爬虫

1、添加用户代理

即添加 USER_AGENT，用于伪装浏览器

在 settings.py 中进行配置：

1
2

&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;Crawl&nbsp;responsibly&nbsp;by&nbsp;identifying&nbsp;yourself&nbsp;(and&nbsp;your&nbsp;website)&nbsp;on&nbsp;the&nbsp;user-agent&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;USER_AGENT&nbsp;=&nbsp;&#39;Mozilla/5.0&nbsp;(Windows&nbsp;NT&nbsp;6.3;&nbsp;Win64;&nbsp;x64)&nbsp;AppleWebKit/537.36&nbsp;(KHTML,&nbsp;like&nbsp;Gecko)&nbsp;Chrome/70.0.3538.110&nbsp;Safari/537.36&#39;

2、不遵守 robots 协议

在 settings.py 中进行配置：

1 2	# Obey robots.txt rules     ROBOTSTXT_OBEY = False

3、请求间隙

即防止请求过于频繁。

在 settings.py 中进行配置，单位是秒：

1	DOWNLOAD_DELAY = 0.25

4、设置 cookies

此处 Douban 的爬虫我们没有进行设置，github 中拉勾网的爬虫中有最简单设置。

即在爬虫代码中设置 cookie，然后在每个 Request 请求中直接添加。

1	yield scrapy.Request(job_url, cookies=self.cookie, meta={'item': item}, callback=self.parse_url)

或者完美一点的做法，应该是在中间件中设置，即在 middlewares.py 文件中进行配置。

九、日志

日后写一篇详细的介绍，此处暂不进行细说。

自定义的简单的日志模块为项目中的 logger.py 文件，使用方法见注释。

十、运行

1、查找可运行的 scrapy 项目

scrapy list

2、运行爬虫

scrapy crawl douban

3、运行爬虫并将 item 信息输出至文件

scrapy crawl douban -o doubanData.json

4、新建执行文件

新建 run.py 执行文件

文件内容为：

1
2
3

&nbsp;&nbsp;&nbsp;&nbsp;from&nbsp;scrapy.cmdline&nbsp;import&nbsp;execute&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
&nbsp;&nbsp;&nbsp;&nbsp;execute([&#39;scrapy&#39;,&nbsp;&#39;crawl&#39;,&nbsp;&#39;douban&#39;])

以后直接执行这个 python 文件即可。

十一、源码

https://github.com/goldenJet/SpiderDemo/tree/master/Douban