倒排索引

倒排索引是一个搜索系统的核心数据结构。由两部分组成:

  • 单词词典(Term Dictionary)。记录所有文档的单词,记录单词到倒排列表的关系。
  • 倒排列表(Posting List)。记录单词对应的文档集合,由倒排索引项组成。
    • 倒排索引项。
      • 文档ID
      • 词频TF-单词在文档出现的次数
      • 位置-单词在文档中出现的位置,用于语句搜索。
      • 偏移(offset)- 记录单词的开始结束位置,实现高亮显示。

ES中的JSON文档的每个字段,都有自己的倒排索引。 也可以指定对某些字段不做索引。虽然可以节省空间,但是字段无法被搜索。


tags: 搜索引擎