阅读背景：

Nutch的工作流程

发表于:2026-02-23

Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目录里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。（一）：流程综述：Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

[C语言] 运行C程序的步骤_GeoDoer _运行c语言程序的步骤

如何使用cout < myclass

IEC62304软件维护框架

Makefile详解-环境变量MAKEFILES

请教个自动填写表单的问题

《建筑与城市规划导论》读书笔记之建筑学基础部分

JQuery给元素绑定click事件多次执行的解决方法

Linux CentOS7.5静默安装Oracle11gR2

Android 使用xml实现边框阴影，背景渐变效果（附有RGB颜色查询对照表）_Jersey_me的博客

Ruby：将嵌套的Ruby哈希转换为非嵌套的Ruby哈希