You need to enable JavaScript to run this app.
导航

上传 IK 分词词典文件

最近更新时间2024.05.15 16:38:07

首次发布时间2023.07.21 11:36:52

IK 分词插件是云搜索服务实例的默认插件,不能卸载。您可以在本地词典文件中配置主分词和停用词,通过上传词典文件的方式配置 IK 分词。

背景信息

您在上传 IK 分词文件、冷热更新文件、使用 IK 分词能力前,请先了解以下基础信息:

词典文件类型

  • 主分词词典:如果创建索引时指定了主分词词典,写入的数据如果包含了主分词词典中的词,那么会创建索引,且能通过关键词搜索该索引。
  • 停用词词典:如果创建索引时指定了停用词词典,写入的数据如果包含了停用词词典的词,该词会被过滤。

图片
系统默认提供一个主分词词典文件(SYSTEM_MAIN.dic)和一个停用词词典文件(SYSTEM_STOPWORD.dic);通过可视化配置的分词词条完成一键生效后,生成的主分词词典文件为SYSTEM_DICTIONARY_MAIN.dic,停用词词典文件为SYSTEM_DICTIONARY_STOPWORD.dic,支持下载词典文件到本地查看文件内容。

  • 系统默认提供的主分词和停用词词典文件不支持热更新,仅支持冷更新。如果需要更新默认词典库,您可以选择上传同名文件,然后直接冷更新文件,这样便能更新默认词典库内容。
  • 通过可视化配置的分词词条完成一键生效生成的词典文件不支持冷、热更新,您只能从可视化配置页面编辑词条然后重新生效,这样才可更新词典内容。
  • 上传的自定义主分词和停用词词典文件支持启用和热更新。新上传的词典文件,需要启用才可生效;热更新则用于更新已启用的词典文件内容。

词典文件限制

您在上传 IK 分词词典文件时,应注意以下内容:

  • 仅支持上传 utf-8 编码的 .dic 文件。
  • 一行只能写一个词。
  • 单次最多上传 10 个文件,且单个文件最大为 5MiB。
  • 上传新的词典文件时,不支持上传同名文件;冷热更新词典文件时,必须上传同名文件。
  • 文件名称只能由大小写字母、数字和 3 个特殊符号(-_.)组成。

词典文件生效说明

  • 词典文件更新操作(添加、编辑和删除)完成后,将对使用 IK 分词的存量、新增索引生效,文件更新后约两分钟才可实际生效。其中存量索引仅对新增数据生效,如果您希望对存量索引的存量数据生效,可使用数据刷新功能刷新索引数据。相关文档,请参见执行数据刷新
  • 每个节点获取词典文件的时间可能不同,请耐心等待词典生效,大概两分钟后再使用更新之后的词典。

生效方式

描述

字典文件类型

是否重启实例

启用

首次上传的自定义词典文件,需要启用才可生效。

自定义词典文件

热更新

当您需要更新已启用的词典文件内容时,您可以下载已启用的词典文件,在本地更新文件内容后,然后进行热更新操作。

自定义词典文件

冷更新

系统提供的默认主分词和停用词词典文件不支持热更新,仅支持冷更新。
如果需要更新默认词典库文件,您可以选择上传同名文件,然后冷更新词典文件,这样便能更新默认词典库内容。
冷更新词典文件,需要滚动重启实例才可生效。

系统词典文件

上传词典文件

  1. 登录云搜索服务控制台,在顶部导航栏选择目标实例所在的地域。
  2. 实例列表 v2页面,单击目标实例名称,然后单击插件管理页签。
  3. 插件管理页签,单击analysis-ik插件对应操作栏的分词词库
    OpenSearch 实例的 IK 插件名称为opensearch-analysis-ik
  4. 分词词库面板页,选择文件管理页签,然后单击新增文件
    图片
  5. 新增文件对话框,选择文件类型及需要上传的文件,上传完成后,单击关闭
    图片
  6. 在弹出的对话框中,选择文件是否立即生效。
    图片
    • 需要立即启用:单击启用,实例会自动重启,即自动开始启用词典文件并生效。
    • 不需要立即启用:单击取消,文件会保存在文件列表中,不会生效。

启用词典文件

首次上传的自定义词典文件需要启用后才可生效。

  1. 在实例的插件管理页签,单击analysis-ik插件对应操作栏的分词词库
    OpenSearch 实例的 IK 插件名称为opensearch-analysis-ik
  2. 分词词库面板页,选择文件管理页签。
  3. 查询并选择待启用状态的词典文件,然后单击启用
    图片
  4. 启用文件对话框,单击启用

热更新词典文件

当您需要更新已启用的自定义词典文件内容时,您可以下载已启用的词典文件,在本地更新文件内容后,然后进行热启用操作。热更新词典文件不会触发实例重启,而是在运行过程中加载分词词库。

说明

  • 系统默认提供的主分词和停用词词典文件不支持热更新。如果需要更新默认词典库,您可以选择上传同名文件,然后冷更新词典文件,这样便能更新默认词典库内容。
  • 通过可视化配置的分词词条完成一键生效生成的词典文件均不支持冷、热更新,您只能从可视化配置页面编辑词条,然后重新执行一键生效操作。
  1. 在实例的插件管理页签,单击analysis-ik插件对应操作栏的分词词库
    OpenSearch 实例的 IK 插件名称为opensearch-analysis-ik
  2. 分词词库面板页,选择文件管理页签。
  3. 查询并选择需要更新的自定义词典文件,然后单击热更新
    图片
  4. 热更新文件对话框,上传在本地已更新的同名文件,然后单击关闭
    图片
  5. 在弹出的提示框中,单击确定
    图片

冷更新词典文件

系统默认提供的主分词和停用词词典文件不支持热更新,仅支持冷更新。如果需要更新默认词典库,您可以选择上传同名文件,然后冷更新词典文件,这样便能更新默认词典库内容。

说明

  • 冷更新系统默认主分词和停用词词典文件,需要滚动重启实例才可生效,请在业务低峰期执行。
  • 请谨慎修改 IK 默认词典文件,如果仅需添加自定义词条,建议通过可视化配置和上传文件的方式。具体操作,请参见可视化配置同义词上传 IK 词典文件
  1. 在实例的插件管理页签,单击analysis-ik插件对应操作栏的分词词库
    OpenSearch 实例的 IK 插件名称为opensearch-analysis-ik
  2. 分词词库面板页,选择文件管理页签。
  3. 选择系统默认提供的主分词或停用词词典文件,然后单击冷更新
    图片
  4. 冷更新文件对话框,查看注意事项,然后上传本地已更新的词典文件,再单击关闭
    图片
  5. 在弹出的提示框中,单击确定
    图片

下载词典文件

支持下载分词词典文件,可以用来查看分词词条详情,也可以用来更新词典文件中的词条内容。

  1. 在实例的插件管理页签,单击analysis-ik插件对应操作栏的分词词库
    OpenSearch 实例的 IK 插件名称为opensearch-analysis-ik
  2. 分词词库面板页,选择文件管理页签。
  3. 选择目标词典文件,单击操作列对应的下载,即可将同义词文件下载至本地。

删除词典文件

  • 仅自定义词典文件支持删除操作,请谨慎执行删除分词词典文件的操作。

说明

删除分词词典文件,请先了解以下事项:

  • 请确保删除文件所包含的词条目前没有索引在使用,否则会导致集群状态异常,如果要更新词条请使用热更新。
  • 删除同义词文件后,该操作仅对之后新建的索引生效。如果您希望对存量索引的存量数据生效,可使用数据刷新功能刷新索引数据。相关文档,请参见执行数据刷新
  1. 在实例的插件管理页签,单击analysis-ik插件对应操作栏的分词词库
    OpenSearch 实例的 IK 插件名称为opensearch-analysis-ik
  2. 分词词库面板页,选择文件管理页签。
  3. 选择目标词典文件,单击目标文件操作列对应的删除
  4. 在弹出的对话框中,查看注意事项并确认需要删除的同义词文件,然后单击删除
    图片