倒排索引
倒排索引是一个搜索系统的核心数据结构。由两部分组成:
- 单词词典(Term Dictionary)。记录所有文档的单词,记录单词到倒排列表的关系。
- 倒排列表(Posting List)。记录单词对应的文档集合,由倒排索引项组成。
- 倒排索引项。
- 文档ID
- 词频TF-单词在文档出现的次数
- 位置-单词在文档中出现的位置,用于语句搜索。
- 偏移(offset)- 记录单词的开始结束位置,实现高亮显示。
- 倒排索引项。
ES中的JSON文档的每个字段,都有自己的倒排索引。 也可以指定对某些字段不做索引。虽然可以节省空间,但是字段无法被搜索。
tags: 搜索引擎