在 sourceforge 下载 源码包与编译后的包
https://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/
1)解压 heritrix-3.1.0-dist.zip ,如解压后的目录D:\study\heritrix-3.1.0\
2)运行cmd,进入到bin 目录下,如cd D:\study\heritrix-3.1.0\bin。
执行命令:heritrix -a admin:admin
这里冒号前面admin是用户名,后面是密码,这样将会在另一个新建的窗口中运行heritrix程序。
3) 在浏览器地址栏输入https://localhost:8443,注意这里是https,端口号为8443,进入webUI控制页面。(忽视不安全的提示)
4)在"Create new job directory with recommended starting configuration"标签下的文本框里输入新任务的名字。然后点击create按钮。(注意在heritrix3.0中,Job Directories只承认有.cxml的文件的工作目录,在你想要放置job的目录下,新建文件夹,并将conf\jobs\profile-defaults下的,profile-crawler-beans.cxml拷贝过去,可修改名称为crawler-beans.cxml,输入路径,然后点add添加进去)。
5)点击Job Directories列表下新建任务的名字,将会进入新工作的配置页面。在页面的顶端,有一个名叫craw-beans.cxml的配置文件,旁边有一股edit的链接。
6)点击"edit",配置内容将会出现,配置内容是可以被编辑的。
为使抓取工作进行,你至少需要修改几个属性。
a. 首先要给metadata.operatorContactUrl 属性赋值,例如:http://bbs.landingbj.com
其在id为simpleOverrides的bean内。
内容如下:
metadata.operatorContactUrl=ENTER_AN_URL_WITH_YOUR_CONTACT_INFO_HERE_FOR_WEBMASTERS_AFFECTED_BY_YOUR_CRAWL,
表示控制爬虫的url,
将其值改为:
metadata.operatorContactUrl=http://bbs.landingbj.com
b. 在longerOverrides bean的<prop>下,输入爬行开始的URL。如http://bbs.landingbj.com
7)点save changes,回到工作页面(注意路径,不能回来就直接重新输路径)。
8)点build,Job Log会显示INFO Job instantiated
9)点击launch按钮,将会暂停pause,点击unpause,爬行工作就开始了。
(即运行状态[Job is Unbuilt] 点 build ->[Job is Ready]点launch -> [Job is Active:PREPARING]等一会儿 ->[Job is Active:PAUSE] 点击 unpause -> [Job is Active:Running])
10)抓取的数据 D:\study\heritrix-3.1.0\bin\jobs\test\20160414090055\warcs
参考链接:
http://blog.csdn.net/oucliuliu/article/details/7453815 快速运行爬虫示例
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide 官方用户手册
http://crawler.archive.org/articles/developer_manual/index.html Heritrix开发参考文档
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.x+API+Guide API文档
http://builds.archive.org/javadoc/heritrix-3.2.0/ API文档