注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

长风明志的博客

不要也不能做下一个谁,应该且可以做第一个自己

 
 
 

日志

 
 

Windows下通过PHP编程执行.bat文件让Nutch执行爬取  

2012-05-08 23:00:12|  分类: 搜索引擎 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

1.PHP调用并执行bat文件代码:

<?php

system("C:\cygwin\RunCygwin.bat");

?>

2.在cygwin的安装目录下,我的是:C:\cygwin下,新建RunCygwin.txt文件,添加如下代码:

@echo off
:: execute Nutch program in Cygwin by Bat               By:changfengmingzhi
 C:
chdir C:\cygwin\bin

set HOME=/cygdrive/c/apache-tomcat-7.0.23/bin
bash -c "shutdown.bat"
rmdir /s/q C:\apache-nutch-1.2\bin\localweb\crawldb
rmdir /s/q C:\apache-nutch-1.2\bin\localweb\index
rmdir /s/q C:\apache-nutch-1.2\bin\localweb\indexes
rmdir /s/q C:\apache-nutch-1.2\bin\localweb\linkdb
rmdir /s/q C:\apache-nutch-1.2\bin\localweb\segments
set HOME=/cygdrive/c/apache-tomcat-7.0.23/bin
bash -c "startup.bat"
set HOME=/cygdrive/c/apache-nutch-1.2/bin
bash --login -i -c "sh nutch crawl urls -dir localweb -depth 1 -topN 1"
set HOME=/cygdrive/c/apache-tomcat-7.0.23/bin
bash -c "shutdown.bat"
bash -c "startup.bat"

最后保存为RunCygwin.bat文件即可,这样就可以通过执行php文件随时方便地重新执行Nutch进行一系列的工作。。。

   注:我用的是Nutch1.2版本,在用Nutch进行重新爬取时,如果不删除localweb文件夹(自定义的)下的目录crawldb
、index、indexes、linkdb、segments会出现错误的~~~

  评论这张
 
阅读(1864)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017