1.ES内置分词器
Standard Analyzer - 默认分词器,按词切分,小写处理
Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理
Stop Analyzer - 小写处理,停用词过滤(the,a,is)
Whitespace Analyzer - 按照空格切分,不转小写
Keyword Analyzer - 不分词,直接将输入当作输出
Patter Analyzer - 正则表达式,默认\W+(非字符分割)
Language - 提供了30多种常见语言的分词器
Customer Analyzer 自定义分词器
前面分词器使用的是标准分词器,其对中文分词不是很友好,下面测试分词器效果。

分词结果:
{
"tokens": [
{
"token": "万",
"start_offset": 0,
"end_offset": 1,
"type": "
"position": 0
},
{
"token": "码",
"start_offset": 1,
"end_offset": 2,
"type": "
"position": 1
},
{
"token": "学",
"start_offset": 2,
"end_offset": 3,
"type": "
"position": 2
},
{
"token": "堂",
"start_offset": 3,
"end_offset": 4,
"type": "
"position": 3
},
{
"token": "教",
"start_offset": 4,
"end_offset": 5,
"type": "
"position": 4
},
{
"token": "育",
"start_offset": 5,
"end_offset": 6,
"type": "
"position": 5
}
]
}常见中文分词器有word分词器,庖丁解牛,IK分词器等等。
2. IK分词器的安装
1)下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
2)下载后解压,文件夹叫analysis-ik,拷贝到elasticsearch主目录下的plugins目录下
3)重新启动ElasticSearch,即可加载IK分词器

3. 测试IK分词器
IK提供两种分词ik_smart和ik_max_word,其中ik_smart为最少切分,ik_max_word为最细粒度划分。
3.1. 测试最小切分


3.2. 测试细粒度切分

分词后结果为:万码 万 码 学堂 教育


0条评论
点击登录参与评论