[原创]使用 heritrix3.1.0    运行一个爬虫任务_Android, Python及开发编程讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Android, Python及开发编程讨论区 »
总帖数
2
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 7358 | 回复: 1   主题: [原创]使用 heritrix3.1.0    运行一个爬虫任务        上一篇   下一篇 
panpan.nie
注册用户
等级:大校
经验:4754
发帖:217
精华:2
注册:1970-1-1
状态:离线
发送短消息息给panpan.nie 加好友    发送短消息息给panpan.nie 发消息
发表于: IP:您无权察看 2016-4-14 17:44:23 | [全部帖] [楼主帖] 楼主


1heritrix3 下载

sourceforge 下载 源码包与编译后的包

https://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/

blob.png 

2heritrix3 快速运行你的第一个爬行程序

1)解压 heritrix-3.1.0-dist.zip ,如解压后的目录D:\study\heritrix-3.1.0\

2)运行cmd,进入到bin 目录下,如cd D:\study\heritrix-3.1.0\bin

执行命令:heritrix -a admin:admin

这里冒号前面admin是用户名,后面是密码,这样将会在另一个新建的窗口中运行heritrix程序。

3) 在浏览器地址栏输入https://localhost:8443,注意这里是https,端口号为8443,进入webUI控制页面。(忽视不安全的提示)

blob.png 

4)"Create new job directory with recommended starting configuration"标签下的文本框里输入新任务的名字。然后点击create按钮。(注意在heritrix3.0中,Job Directories只承认有.cxml的文件的工作目录,在你想要放置job的目录下,新建文件夹,并将conf\jobs\profile-defaults下的,profile-crawler-beans.cxml拷贝过去,可修改名称为crawler-beans.cxml,输入路径,然后点add添加进去)

blob.png 

 

5)点击Job Directories列表下新建任务的名字,将会进入新工作的配置页面。在页面的顶端,有一个名叫craw-beans.cxml的配置文件,旁边有一股edit的链接。

blob.png

6)点击"edit",配置内容将会出现,配置内容是可以被编辑的。

 blob.png

为使抓取工作进行,你至少需要修改几个属性。

a. 首先要给metadata.operatorContactUrl 属性赋值,例如:http://bbs.landingbj.com

其在idsimpleOverridesbean内。

内容如下:

metadata.operatorContactUrl=ENTER_AN_URL_WITH_YOUR_CONTACT_INFO_HERE_FOR_WEBMASTERS_AFFECTED_BY_YOUR_CRAWL

表示控制爬虫的url

将其值改为

metadata.operatorContactUrl=http://bbs.landingbj.com

blob.png 

 b. longerOverrides bean<prop>下,输入爬行开始的URLhttp://bbs.landingbj.com

blob.png

 

7)save changes,回到工作页面(注意路径,不能回来就直接重新输路径)。

blob.png 

8)buildJob Log会显示INFO Job instantiated

blob.png 

9)点击launch按钮,将会暂停pause,点击unpause,爬行工作就开始了。

(即运行状态[Job is Unbuilt] build ->[Job is Ready]launch -> [Job is Active:PREPARING]等一会儿 ->[Job is Active:PAUSE] 点击 unpause -> [Job is Active:Running]

blob.png

10)抓取的数据 D:\study\heritrix-3.1.0\bin\jobs\test\20160414090055\warcs

 

 

参考链接:

http://blog.csdn.net/oucliuliu/article/details/7453815 快速运行爬虫示例

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide 官方用户手册

http://crawler.archive.org/articles/developer_manual/index.html Heritrix开发参考文档

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.x+API+Guide API文档

http://builds.archive.org/javadoc/heritrix-3.2.0/ API文档

 





赞(0)    操作        顶端 
panpan.nie
注册用户
等级:大校
经验:4754
发帖:217
精华:2
注册:1970-1-1
状态:离线
发送短消息息给panpan.nie 加好友    发送短消息息给panpan.nie 发消息
发表于: IP:您无权察看 2016-4-14 17:50:21 | [全部帖] [楼主帖] 2  楼

http://www.iteye.com/blogs/subjects/guoyunsky 不错的Heritrix 的教程汇总



赞(0)    操作        顶端 
总帖数
2
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论