AI 分身知识库能力
能力说明
检索增强又叫 RAG,主要提供知识库的离线索引入库和检索召回能力,主要分为两个模块:
- •离线数据处理模块:将用户通过平台上传文件(如 txt、word、pdf)或用户抖音稿件内容经过数据处理链路写入到知识库中。
- •在线检索模块:对知识库内容做检索,或通过外部接口做检索。
通过 RAG 原子服务检索召回的知识内容切片(chunks),可以作为 AI 分身服务中模型调用时入参 prompt 的上下文,给到模型做总结,丰富上下文知识内容。
整体分为:离线数据入库出库 -> AI 分身在线运行检索环节
使用流程
「开发者平台」管理页 | 配置模型信息 | 创建知识库 | 完成配置-知识库管理 | 知识库的使用 | 效果展示 |
|
准备工作
1. 完成 AI 分身应用与抖音号的绑定
- •绑定教程:参考文档指引完成操作;
- •绑定结果确认:可在「设置-基础设置」页面确认绑定抖音号结果,绑定成功如下图所示;
2. 完成抖音云的开通
- •开通教程:参考文档指引完成操作;
- •开通结果确认:可在「开发-开发配置-抖音云服务」中确认开通结果,开通成功如下图所示;
创建知识库
方式 1:使用本地文件创建知识库
按需创建支持自研开发者、服务商
配置方式
方式 1:通过平台配置。暂时仅支持自研开发者。
方式 2(新增):通过接口管理。支持自研开发者、服务商通过 OpenAPI 管理。
操作步骤
- 1.进入需要配置的 AI 分身管理页。
- 2.点击侧边栏:开发 - 知识库,进入配置。
- 3.点击:创建知识库。
- 4.选择数据来源:本地上传。
- 5.输入名称:“知识库名称”支持中文、英文、数字、下划线_;长度不超过 64 字符;知识库名称不能重复。
- 6.输入描述:长度不超过 500 字符。
- 7.上传文件:
- a.支持的文件类型:pdf、txt、doc、docx
- b.文件上传限制:一个知识库最多支持 100 个文件;单文件不超过 100mb
- c.文件上传完成后才可保存
- 8.点击:立即创建,即完成一个知识库的创建。
注意
流程【文件上传完成知识库创建 -> 离线处理 -> 在线检索存在】需要一定的文件处理周期。
点击“创建知识库” | 选择数据来源“本地上传”,填写创建信息 |
|
方式 2:抖音数据授权创建知识库
按需配置,如不使用相关能力则可以不授权使用抖音数据目前仅支持自研开发者配置,服务商暂不支持
配置方式
现暂时仅支持自研开发者通过平台配置。
操作步骤
- 1.进入需要配置的 AI 分身管理页。
- 2.点击侧边栏:开发 - 知识库,进入配置。
- 3.点击:创建知识库。
- 4.选择数据来源:抖音账号数据授权。
- 5.勾选所需要的数据:获取公开视频。
- a.暂仅支持使用 AI 分身所绑定的抖音账号下的公开视频。
- b.首次使用时需要完成 AI 分身绑定的抖音账号的授权,完成授权后方可使用。
- c.授权二维码有限期为 12 小时,请在 12 小时内完成扫码授权,如果超过时限则需要重新发起授权。
点击“创建知识库” | 选择数据来源“抖音账号数据授权”,添加抖音数据 | 抖音数据授权 |
配置推理节点
按需配置,如需使用【知识库离线知识总结提取、知识库在线 Query 总结改写】能力,则需要配置推理节点。
配置方式
方式 1:通过平台配置。暂时仅支持自研开发者。
方式 2(新增):通过接口管理。支持自研开发者、服务商通过 OpenAPI 配置和管理。
前提条件
操作步骤
注意
未开通配置“抖音云”不可配置节点。
点击「选择推理节点」,可以在弹窗中区分使用场景,配置相应的模型节点。
- •离线数据节点:该推理节点用于离线数据处理写入知识库阶段中的【知识总结提取】能力使用。配置离线数据推理节点后,新上传文件将开启使用该能力。(推荐关联使用 doubao-32k-pro 模型)。
- •在线调用节点:该推理节点用于在线检索阶段中的【Query 总结改写】能力使用。配置在线调用推理节点后,知识库的在线检索请求将开启使用该能力。(推荐关联 使用 doubao-32k-lite 模型)。
注意
开启使用【Query 总结改写】能力后将增加检索接口请求耗时,开启后检索接口 avg 耗时约 1.5s 左右)。