位置: 主页 > 娱乐笑话 >

倒腾排索伸与威尼斯人

时间:70-01-01 08:00 来源:

  正排索伸:文档ID到文档情节、单词的相干相干

  倒腾排索伸:单词到文档ID的相干相干

  此雕刻边写图片描绘

  倒腾排索伸查询流动程:(以查询包罗“搜索伸擎”的文档为例)

  经度过倒腾排索伸得到“搜索伸擎”对应的文档ID拥有1和3

  经度过正排索伸查询1和3的完整顿情节

  前往用户终极结实

  倒腾排索伸是搜索伸擎的中心,首要包罗两片断:

  (普畅通由B+Tree完成)

  记载所拥有文档的单词,普畅通邑比较父亲

  记载单词到倒腾老列表的相干信息

  : 记载单词对应的文档集儿子合,由结合

  首要包罗如次信息:

  ,用于获取原始信息

  ),记载该单词在该文档中的出产即兴次数,用于后续相干性算分

  ,记载单词在文档中的关键词位置(多个),用于做词语搜索(Phrase Query)

  ,记载单词在文档的末了尾和完一齐位置,用于做高明露示

  此雕刻边写图片描绘

  官方文档

  关键词是指将文本替换成壹系列单词(term or token)的经过,也却以叫做文本关键词,在es外面面成为.

  关键词器是es中特意处理关键词的组件,英文为,它的组件如次:

  : 针对原始文本终止处理,譬如去摒除html特殊标注识表记标注帜符

  : 将原始文本依照壹成规则切分为单词

  : 针对tokenizer处理的单词终止在加以工,譬如转小写、删摒除、或新增等处理

  es供了壹个测试关键词的api接口,便宜验证关键词效实,endpoint是

  却以直接指定analyzer终止测试

  却以直接指定索伸中的字段终止测试

  却以己定义关键词器终止测试

  直接指定analyzer终止测试:

  直接指定索伸中的字段终止测试:

  己定义关键词器终止测试:

  : 按词切分,顶持多言语;小写处理

  依照匪字母亲切分;小写处理

  依照空格切分

  Stop World指语气助词等修饰性的词语,譬如the、an、的、此雕刻等等,比较simple多了stop word 处理

  不关键词,直接将输入干为壹个单词输入

  经度过正则表臻式己定义隔河相望符;默许是\W+,即匪字符的标记干为隔河相望符

  • 上一篇:五粮液的壹线酒企位置还能护持多久?
  • 下一篇:没有了
  • 热门文章
    最新文章
    Copyright @ 2011-2017 Power by DedeCms