
资料内容:
、创建Scrapy项⽬ 
似乎所有的框架,开始的第⼀步都是从创建项⽬开始的,Scrapy也不例外。在这之前要说明的是Scrapy项⽬的创建、配置、运⾏……默认 
都是在终端下操作的。不要觉得很难,其实它真的⾮常简单,做填空题⽽已。如果实在是⽆法接受,也可以花点⼼思配置好Eclipse,在这 
个万能IDE下操作。推荐还是在终端操作⽐较好,虽然开始可能因为不熟悉⽽出现很多错误,错多了,通过排错印象深刻了,也就⾃然学会 
了。打开Putty连接到Linux,开始创建Scrapy项⽬。执⾏命令: 
cd 
cd code/scrapy/ 
scrapy startproject todayMovie 
tree todayMovie 
执⾏结果如图1所⽰。 
图1 创建todayMovie项⽬ 
tree命令将以树形结构显⽰⽂件⽬录结构。tree命令默认情况下是没有安装的,可以执⾏命令apt-get install tree来安装这个命令。 
这⾥可以很清楚地看到todayMovie⽬录下的所有⼦⽂件和⼦⽬录。⾄此Scrapy项⽬todayMovie基本上完成了。按照Scrapy的提⽰信息, 
可以通过Scrapy的Spider基础模版顺便建⽴⼀个基础的。相当于把填空题打印到试卷上,等待填空了。当然,也可以不⽤Scrapy命令建⽴ 
基础,如果⾮要体验⼀下DIY也是可以的。这⾥我们还是怎么简单怎么来吧,按照提⽰信息,在该终端中执⾏命令: 
cd todayMovie 
scrapy genspider wuHanMovieSpider mtime.com 
执⾏结果如图2所⽰。 
图2 创建基础爬⾍ 
⾄此,⼀个最基本的项⽬已经建⽴完毕了,它包含了⼀个Scrapy所需的基础⽂件。到这⼀步可以说填空题已准备完毕,后⾯的⼯作就纯粹 
是填空了。图2中第⼀⾏⽂字scrapy genspider是⼀个命令,也是Scrapy最常⽤的⼏个命令之⼀,它的使⽤⽅法如图3所⽰。 
图3 scrapy genspider命令帮助 
因此,刚才的命令意思是使⽤scrapy genspider命令创建⼀个名字为wuHanMovieSpider的爬⾍脚本。这个脚本搜索的域为 
mtime.com。 
2、Scrapy⽂件介绍 
Scrapy项⽬的所有⽂件都已经到位了,如图2所⽰,下⾯来看看各个⽂件的作⽤。⾸先最顶层的那个todayMovie⽂件夹是项⽬名,这个没 
什么好说的。 
在第⼆层中是⼀个与项⽬同名的⽂件夹todayMovie和⼀个⽂件scrapy.cfg,这⾥与项⽬同名的⽂件夹todayMovie是模块(也可以叫做包 
的),所有的项⽬代码都在这个模块(⽂件夹或者叫包)内添加。⽽scrapy.cfg⽂件,顾名思义它是整个Scrapy项⽬的配置⽂件。来看看这个 
⽂件⾥有些什么。Scrapy.cfg⽂件内容如下: 
 
                