Elasticsearch搜索中文分词优化 - 迅博思语资讯移动站

Elasticsearch搜索中文分词优化

2024-10-31 20:42

Elasticsearch 中文搜索时遇到几个问题:

Elasticsearch搜索中文分词优化

当搜索关键词如：“人民币”时，如果分词将“人民币”分成“人”，“民”，“币”三个单字，那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”，搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?
1. 搜索“RMB”时只会匹配到包含“RMB”关键词的内容，实际上，“RMB”和“人民币”是同义词，我们希望用户搜索“RMB”和“人民币”可以相互匹配，ES同义词怎么配置？
2. 1. 用户搜索拼音: 如"baidu",或者拼音首字母"bd",怎么匹配到"百度"这个关键词,又如用户输入"摆渡"这个词也能匹配到"百度"关键词,中文拼音匹配怎么做到?
  2. 1. 怎么保证搜索关键词被正确分词,通常我们会采用自定义词典来做,那么怎么获取自定义词典?
    2. 1，Elasticsearch中文分词我们采用Ik分词，ik有两种分词模式，ik_max_word,和ik_smart模式;
    3. ik_max_word 和 ik_smart 什么区别?
    4. elasticsearch /config/analysis 下建议同义词词典文件pro_synonym.txt,采用UTF-8编码,写入内容
    5. 同义词内容格式 ,注意标点符号使用英文符号
    6. 启航 => 起航 : "=>"左边的词全部会被右边的词替换
    7. 启航,起航 :使用","英文逗号分隔,两个词是互等的,分词时会同时分成两个词进行索引或者检索,如"启航"会被分成"启航","起航"两个词分别建立索引或者去倒排索引检索
    8. Elasticsearch Suggest setting mapping设置参考如下
    9. 解决单字搜索的一种方案
    10. 问题：搜索时，搜索牙膏，需检索出包含“牙膏”二字的内容，过滤掉包含“牙”或者“膏”的内容，但是搜索单字“牙”或者“膏”时需要将牙膏匹配出来
    11. 方案：加入单字字典，ik_max_word分词时，会把所有形式分出来,因此单字字典，此分词模式下会将单字索引起来，ik_smart会按照最粗粒度分词，搜索关键词时不会匹配单字内容
    12. 索引和搜索采用不同分词器 "analyzer": "ik", "search_analyzer": "ik_smart"
    13. 过程：更改mapping，searchAnalyzer=ik_smart,reindex，reindex现有数据参考资料以上就是本篇文章【Elasticsearch搜索中文分词优化】的全部内容了，欢迎阅览！文章地址：http://syank.xrbh.cn/news/8284.html
      资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多

1.IK 分词器

2.Elasticsearch之分析（analysis）和分析器（analyzer）

2.1 character filter 字符过滤器

2.2 tokenizer 分词器

2.2 token filters 表征过滤器

2.3 ES分词流程

2.5 自定义analyzer

2.6 分词mapping设置

1.7 如果更改了mapping分词器,需要重新索引数据才能生效

1.8 分词测试

1.8 更改别名,不重启服务切换索引

2 同义词

3 Suggest分词

4 中文拼音搜索

1.关于搜索关键词会将不相关词搜索出来