AI 分身知识库能力

收藏
我的收藏

能力说明

检索增强又叫 RAG。
主要提供知识库的离线索引入库和检索召回能力,主要分为两个模块:
    离线数据处理模块:将用户通过平台上传文件(如 txt、word、pdf)或用户抖音稿件内容经过数据处理链路写入到知识库中。
    在线检索模块:对知识库内容做检索,或通过外部接口做检索。
通过 RAG 原子服务检索召回的知识内容切片(chunks),可以作为 AI 分身服务中模型调用时入参 prompt 的上下文,给到模型做总结,丰富上下文知识内容。
整体分为:离线数据入库出库 -> AI 分身在线运行检索环节

使用流程

流程总览

「开发者平台」管理页
配置模型信息
创建知识库
完成配置-知识库管理
知识库的使用
效果展示

开始前准备

1. 请先完成 AI 分身应用与抖音号的绑定

    绑定结果确认:可在「设置-基础设置」页面确认绑定抖音号结果,绑定成功如下图所示;

2.完成抖音云的开通

    开通结果确认:可在「开发-开发配置-抖音云服务」中确认开通结果,开通成功如下图所示;

创建知识库

方式 1:使用本地文件创建知识库

按需创建
支持自研开发者、服务商
    1.配置方式
    方式 1:通过平台配置。暂时仅支持自研开发者。
    方式 2(新增):通过接口管理。支持自研开发者、服务商通过 OpenAPI 管理。
    2.平台配置的操作步骤
    a.进入需要配置的 AI 分身管理页
    b.点击侧边栏:开发 - 知识库,进入配置
    c.点击:创建知识库
    d.选择数据来源:本地上传
    e.输入名称:“知识库名称”支持中文、英文、数字、下划线_;长度不超过 64 字符;知识库名称不能重复
    f.输入描述:长度不超过 500 字符
    g.上传文件:
    i.支持的文件类型:pdf、txt、doc、docx
    ii.文件上传限制:一个知识库最多支持 100 个文件;单文件不超过 100mb
    iii.文件上传完成后才可保存
    h.点击:立即创建,即完成一个知识库的创建。
*特别的,流程【文件上传完成知识库创建 -> 离线处理 -> 在线检索存在】需要一定的文件处理周期;
点击“创建知识库”
选择数据来源“本地上传”,填写创建信息

方式 2:抖音数据授权创建知识库

按需配置,如不使用相关能力则可以不授权使用抖音数据
目前仅支持自研开发者配置,服务商暂不支持
    1.配置方式:现暂时仅支持自研开发者通过平台配置。
    2.平台配置的操作步骤
    a.进入需要配置的 AI 分身管理页
    b.点击侧边栏:开发 - 知识库,进入配置
    c.点击:创建知识库
    d.选择数据来源:抖音账号数据授权
    e.勾选所需要的数据:获取公开视频
    i.暂仅支持使用 AI 分身所绑定的抖音账号下的公开视频。
    ii.首次使用时需要完成 AI 分身绑定的抖音账号的授权,完成授权后方可使用。
    iii.授权二维码有限期为 12 小时,请在 12 小时内完成扫码授权,如果超过时限则需要重新发起授权。
点击“创建知识库”
选择数据来源“抖音账号数据授权”,添加抖音数据
抖音数据授权

推理节点配置

按需配置,如需使用【知识库离线知识总结提取、知识库在线 Query 总结改写】能力,则需要配置推理节点

1. 配置方式

    方式 1:通过平台配置。暂时仅支持自研开发者。
    方式 2(新增):通过接口管理。支持自研开发者、服务商通过 OpenAPI 配置和管理。

2.配置不同节点

点击「选择推理节点」,可以在弹窗中区分使用场景,配置相应的模型节点。
a. 离线数据节点:该推理节点用于离线数据处理写入知识库阶段中的【知识总结提取】能力使用。配置离线数据推理节点后,新上传文件将开启使用该能力。(推荐关联使用 doubao-32k-pro 模型)
b. 在线调用节点:该推理节点用于在线检索阶段中的【Query 总结改写】能力使用。配置在线调用推理节点后,知识库的在线检索请求将开启使用该能力。(推荐关联使用 doubao-32k-lite 模型)
*注意:开启使用【Query 总结改写】能力后将增加检索接口请求耗时,开启后检索接口 avg 耗时约 1.5s 左右)

3.配置前提说明

开始配置节点前,请先检查是否已经开通配置「抖音云」 ,如未开通则需要参考文档完成「抖音云」的开通配置;
未开通配置“抖音云”不可配置节点

知识库的在线检索