启闭机厂家
免费服务热线

Free service

hotline

010-00000000
启闭机厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

百度lee搜索引擎索引系统概述2

发布时间:2019-12-30 11:06:32 阅读: 来源:启闭机厂家

10月21日,百度lee扼要介绍了搜索引擎索引系统概述(1),主要讲的就是搜索引擎的倒排索引,还是先来百科一下:Query,是查询的意思,为了在数据库中寻觅某一特定文件、网站、记录或一系列记录,由搜索引擎或数据库送出的消息;term是单词文本,即关键词。

今天,百度Lee公布了搜索引擎索引系统概述第二部份,以下是原文:

实际上在建立倒排索引的最后还需要有一个入库写库的进程,而为了提高效率这个进程还需要将全部term和偏移量保存在文件头部,并且对数据进行紧缩,这涉及到的过于技术化在此就不多提了。今天扼要给大家介绍一下索引以后的检索系统。

检索系统主要包括了五个部份,如下图所示:

(1)Query串切词分词行将用户的查询词进行分词,对以后的查询做准备,以10号线地铁故障为例,可能的分词以下(同义词问题暂时略过):

10 0x123abc

号 0x13445d

线 0x234d

地铁 0x145cf

故障 0x354df

(2)查出含每一个term的文档集合,即找出待选集合,以下:

0x123abc 1 2 3 4 7 9..

0x13445d 2 5 8 9 10 11

(3)求交,上述求交,文档2和文档9可能是我们需要找的,全部求交进程实际上关系着全部系统的性能,这里面包括了使用缓存等等手段进行性能优化;

(4)各种过滤,举例可能包括过滤掉死链、重复数据、色情、垃圾结果和你懂的;

(5)终究排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等,以后会详细给大家介绍。

好了,上面的的大家可能不太懂,木木SEO给大家来解释一下:

前面(1)就是搜索引擎将提取文中关键词,按分词程序划分好的词,同时记录每一个词在页面中出现的频率、出现的次数、格式(如加粗、倾斜、黑体、H标签、加色彩、锚文字等)、位置。然后把这些词语记录为串关键词集合,那末这些词的相干信息如格式、权重等也会记录在案。实际在搜索引擎中每一个关键词也被转换为ID情势记录,然后每一个文件ID对应一串关键词ID。这类每一个文件ID对应一个串关键词ID这样的数据结构被称之为正向索引。比如文件1对应1、2这二个关键词,文件2对应1、3这二个关键词。

而(2)就是将每一串关键词ID对应文件ID,比如关键词2对应文件1、3,如此一来大大缩短搜索引擎扫描索引库中的文件,缩短扫描时间。提升搜索引擎的效力。

文章编辑自:木木SEO博客 na/mumuhouzi 有问题可以咨询!

济南天大白癜风医院v

金华皮肤病防治院

重庆弘医堂耳鼻喉

大成拳站桩与慢性疾病