安装
创建一个新工程
1
| scrapy startproject <project_name>
|
其中 project_name 为项目名称,默认会在当前目录下创建一个名为 project_name 的文件夹用于目标 Spider任务。
具体命令如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
| $ scrapy startproject -h
Usage
=====
scrapy startproject <project_name> [project_dir]
Create new project
Options
=======
--help, -h show this help message and exit
Global Options
--------------
--logfile=FILE log file. if omitted stderr will be used
--loglevel=LEVEL, -L LEVEL
log level (default: DEBUG)
--nolog disable logging completely
--profile=FILE write python cProfile stats to FILE
--pidfile=FILE write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
set/override setting (may be repeated)
--pdb enable pdb on failure
|
初始时的目录结构如下所示:
启动调试
使用 IDE 时,为了方便调试,可以新建 run.py 使用 spider.cmdline 中的 execute函数 执行命令,达到调试的效果。
1
2
3
4
5
6
7
8
| # run.py
from scrapy.cmdline import execute
if __name__ == '__main__':
spider_app = 'DoubanMovie'
cmd = 'scrapy crawl {0} --nolog'.format(spider_app)
execute(cmd.split())
|
Author
Alfons
LastMod
2019-01-14
License
Creative Commons BY-NC-ND 3.0