Nutch重要命令使用说明

之前几篇博文对nucth抓取周期的几个命令做了说明，本篇博文将对nutch抓取周期以外的几个重要的命令的使用进行详细的说明。

1. mergesegs

合并多个segment为一个segment。

参数：

参数说明：

output_dir: 输出目录

dir：合并路径

命令：

合并结果：

从结果可以看出，是把三个segments合并为了一个segment。

先来看下之前3个segment相关大小：

再来看下合并的结果大小：

从结果来看，大小没有变，是因为数据量比较小，如果数据量很大的话，效果也会相当的明显。另外hadoop对于处理大文件有先天的优势，所以合并的命令有非常大的作用。

合并的命令有3个：

另外两个：mergedb和merge db的使用方法和mergesegs的使用完全一样，这里不做详细说明。

2. invert s

反转连接，得到每一个连接的输入连接库。

参数：

参数说明：

db: db路径

dir:输出路径

执行命令：

执行结果：

可以看到，在data目录下面生成了 db目录了：

3. parsechecker

对一个url进行源数据的解析以及文本内容的解析。

参数：

参数说明：

url：需要check的url。

执行命令：

执行结果：

从执行结果可以看出有213条外链，网站签名等信息。

4. domainstats

域统计：从crwaldb中计算域名统计信息。

参数：

参数说明：

inputDirs：输入目录，为crawldb路径；

outDir：输出目录。

hostdomainsuffixtld:从小到大的范围统计。

执行命令：

执行结果如下：

再来看看4个目录里面的内容：

5. webgraph

从已经存在的segment从生成一个web graph。

参数：

参数说明：

segment:单独或者多个的segment目录；

segmentDir：使用的segment的目录；

webgraphdb：web graph 数据库路径。

执行命令：

执行结果：

6. nodedumper

查看web graph的内容。

参数：

参数说明：

asSequenceFile：是否把输出文件设置为一个序列文件；

group：根据host或者domain分组；

in s：根据输入连接排序；

out s：根据输出连接排序；

sorces：根据分数排序；

output：输出目录；

topn：根据自然顺序显示N条结果；

webgraphdb：webgraphdb目录。

执行命令：

执行结果：

查看结果：

执行命令：

执行结果：

查看结果：

执行命令：

执行结果：

查看结果：

7. rank

计算分值。

参数：

参数说明：

webgraphdb：webgraphdb的路径。

执行命令：

执行结果：

再来通过nodedumper看下分值：

执行命令：

结果：

从中就可以看到分值了。

8. freegen

轻量级抓取：从文本文件里面生成一个segment，然后对这个segment进行抓取。

参数：

参数说明：

inputDir：输入路径；

segmentsDir：segments路径。

执行命令：

执行结果：

可以看到生成了新的segment：

9. indexchecker

对当前所配置的索引的插件进行检查。

参数：

参数说明：

url：需要进行检查的url。

执行命令：

执行结果：

继续阅读与本文标签相同的文章

None

Windows下Python3.6安装第三方模块的方法

易语言获取任意按键对应的键代码

收藏打印

Nutch重要命令使用说明

浏览：245 2026-05-02

继续阅读与本文标签相同的文章

Windows下Python3.6安装第三方模块的方法

易语言获取任意按键对应的键代码

特别推荐 2026年05月19日星期二

精彩发现

热门标签

Nutch重要命令使用说明

浏览：245 2026-05-02

继续阅读与本文标签相同的文章

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-05-19栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-23栏目： 教程

2026-04-24栏目： 教程

特别推荐 2026年05月19日 星期二

精彩发现

热门标签

相关文章

127人阅读

1684人阅读

682人阅读

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-05-19栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-23栏目：教程

2026-04-24栏目：教程

特别推荐 2026年05月19日星期二