欢迎使用
53AI Studio 语料数据清洗指引
按《知识整理指引》整理后的企业知识文档需上传到语料数据库中,作为智能问答智能体的知识库。上传时选择的清洗策略直接影响清洗后的语料数据的质量,而语料数据的质量又与问答准确率呈强正相关。
- 未经处理的文档可能包含格式噪声、重复内容、或无效信息,直接使用会导致准确率低及 token 资源浪费(如冗余内容占用计算资源);
- 拆分错误的语料易引发模型 “幻觉” 现象(如基于不完整的知识生成虚假回答)。
- 语料文档并非数量越多越好,高质量语料(如结构化强、无矛盾的知识)可使准确率显著提升
- 语料切片的颗粒度与语义完整性直接决定回答质量
- 过粗切片(如整章拆分)会导致语义检索偏差
- 过细切片(如逐句拆分)可能破坏知识逻辑链条
语料优化建议:
上传后需对切片内容进行人工校验,重点检查:
✅ 切片是否包含完整语义单元(如独立条款、完整流程步骤)
✅ 是否存在跨切片的知识断层(如同一问题答案被拆分至不同切片)
实施闭环逻辑:通过 “选择策略→精细拆分→质量校验” 的流程管控,既能规避 token 资源浪费与模型幻觉风险,更能以高价值语料支撑知识库实现 “高准确率 - 调优效率” 的双重提升。
一、操作指引
在53AI 平台上,经过创建语料库和上传知识文档后,需要根据文档类型和特点选取合适的清洗方式。清洗方式有三个类型:自动清洗、自定义清洗、人工标注。初步清洗完成后,还需查看语料切片是否符合预期,根据需要进行调整,最终使其成为优质语料。本章将介绍清洗的步骤、清洗方式的选取以及切片内容的调整。
注意:
- 创建语料数据需设置向量嵌入、召回数量和分数阈值
- 上传知识文档仅支持格式为TXT、PDF、Markdown、HTML、XLSX、CSV、Docx等本地文件,且需每次上传相同类型文件,单个文件不超过30MB
1.1 自动清洗
诸如问答Q&A、法律法规、表格内容等文件相对来说比较结构化,用户只需要上传符合格式要求的文档,无需设置,选择特定的方式即可按照内置算法自动完成清洗,具体包括:百问百答、数据表格、制度法规、电子书籍等四种方式。
1.1.1 百问百答
公司对内对外通常有问答Q&A等一问一答样式的内容,经过【知识文档整理指南】所介绍的方式整理后,在清洗阶段可选用【百问百答】的清洗方式。百问百答方式支持XLSX、CSV和TXT文件。
注意事项: 1.Excel格式的语料文件不要有标题,内容只保留“问题、答案”两列; 2.如果是 csv 、TXT格式,必须采用的是UTF-8 编码, TAB 作为分隔符来分隔问题和答案; 3.每个问答对将拆分成一个语料片段
清洗预览效果:
文件类型 | 格式 | 源文件 | 预览效果 |
---|---|---|---|
XLSX | 一列问题,一列答案 | ||
CSV | 一列问题,一列答案 | ||
TXT | 以---符号隔开每对问答对 | ||
TXT | 问题与答案用英文逗号隔开 | ||
TXT | 问题与答案用TAB键隔开 |
1.1.2 数据表格
支持XLSX、CSV、TXT文件
注意事项: 1.表格数据的第一行必须是列标题,列标题必须是有意义的名词或术语, 列举一些同义词时最好使用斜杠’/‘来分隔,甚至使用方括号枚举值,例如 ‘供应商/供货商、性别(男,女)’; 2. 对于 csv 或 txt 文件,列之间的分隔符为 TAB; 3. 表格数据中的每一行都将拆分成一个语料片段。
列标题Tips: 1.供应商/供货商、颜色(黄色、红色、棕色)、性别(男、女)、尺码(M、L、XL、XXL) 2.姓名/名字、电话/手机/微信、最高学历(高中,职高,硕士,本科,博士,初中,中技,中 专,专科,专升本,MPA,MBA,EMBA)
清洗预览效果:
文件类型 | 格式 | 源文件 | 预览效果 |
---|---|---|---|
XLSX | 一行列标题,多行表内容 |
1.1.3 制度法规
制度法规类文件有非常严格的书写格式,语料片段的粒度与条款一致,所有上级目录都会包含在语料片段中。清洗方式选择【制度法规】,该种方式支持DOCX、PDF和TXT文件。
清洗预览效果:
文件类型 | 格式 | 源文件 | 预览效果 |
---|---|---|---|
PDF/DOCX/TXT | 法律条款 |
1.1.4 电子书籍
电子书籍类文档建议选用【电子书籍】的清洗方式。该方式将书籍按章节段落进行片段拆分,每一个语料片段中都将带上书籍的章节的名称。【电子书籍】的清洗方式支持DOCX、PDF和TXT文件。
清洗预览效果:
文件类型 | 格式 | 源文件 | 预览效果 |
---|---|---|---|
PDF/DOCX/TXT | 带有章节的电子书 |
1.2 自定义清洗
大多数知识文档不能通过自动清洗算法识别成结构化的语料数据,比如产品知识手册等图文表并茂的文档。此时建议选用【通用文档】的清洗方式。该方式支持TXT、 PDF、 Markdown、 HTML、 XLSX、 CSV和Docx等7种格式的文档。
如图所示,上传知识文档后,需要分别设置知识点、检索块的规则和预处理规则。
知识点清洗规则包括按长度、按目录和按页面三种,检索块的清洗规则需与知识点的对应或自行选择,对应关系如下表所示:
知识点清洗规则 | 检索块清洗规则 | 图示 |
---|---|---|
按长度 | 按长度 | |
按目录 | 按长度/按目录 | |
按页面 | 按长度 |
预处理规则包括:
- 替换换行符、连续空格及制表符或自定义分片标识符
- 去除URL链接及Email地址
概念介绍: 1.知识点:较大的文本单位,提供丰富的上下文信息。 2.检索块:较小的文本单位,用于精确检索。系统先通过检索块进行精确检索以确保相关性,然后获取对应的知识点来补充上下文信息,从而在生成响应时既保证准确性又能提供完整的背景信息。 3.分片标识符:分隔符是用于分隔文本的字符。\n\n和\n 是常用于分隔段落和行的分隔符。用逗号连接分隔符(\n\n,\n)当段落超过最大块长度时,会按行进行分割。你也可以使用自走义的特殊分隔符(例如 ***)。 4.分片最大长度:指定分段内的文本字符数最大上限,超出该长度时将强制分段。默认值为 500 Tokens,分段长度的最大上限为 4000 Tokens。右侧有预览效果,可一边修改一边查看右侧预览效果,符合期望即可。 5.检索增强:通过检索块以及调用模型生成相关问题与摘要,来增加数据块的语义丰富度,更利于检索。需要消耗更多的存储空间和增加 AI 调用次数。
1.3 人工标注
针对产品,许多公司有做产品画册以介绍产品。产品画册中通常包含图片及表格等分层结构, 我们将产品手册中的图片与表格标记后再对文档进行拆分, 从而保证同一区域的图片和表格内容的完整性。清洗时需要选择【产品画册】的清洗方式,该方式仅支持PDF文档,且需另外付费,6分/页。清洗时可设置【清洗规则】和【大致长度】,清洗规则包括“按长度”、“按目录”和“按页面”三种方式。 按长度:根据字符长度来分割知识内容,较通用。 按目录:根据目录来分割知识内容,需严格在编辑文件时就采用了标题格式才可选用这种方式 按页面:同一页面的内容将被清洗到同一个语料切片中。如果文件是同个主题的内容就在同一页,建议选择这种方式。
文件类型 | 源文件 | 标注时 | 清洗后 |
---|---|---|---|
具体操作步骤:
- 第一步,上传PDF文档后,选择【产品画册】清洗方式,在【清洗规则】处选择“按长度”、“按目录”或“按页面”中的一种,文件自动进入【区域检测】阶段。
- 第二步,文件状态变为【等待标注】后,点击【源文件】,点击右上角的【标注】按钮。进入标注页面,可以看见文件已经根据第一步设置的清洗规则初步清洗好,可点击【设置】按钮更改清洗规则,也可直接在页面上对已被识别的区域进行操作。最后点击【开始清洗】即可。
对已识别区域的修改: 对于系统自动标注时已经识别的区域,我们也可以进行人工干预。其中,蓝色方框标注的是文本内容,绿色方框标注的是表格内容,黄色方框标注的是图片内容。我们可以修改标注内容的属性,进行设置为无效区域、文字、表格、图片,和删除等操作。
- 对文字内容的修改 对于已经识别的文字内容,我们可以将其转换为图片或者无效区域。 例如,文件的页眉页脚等信息,如果被识别为文字,会给语料切片带来冗杂内容,影响语料文件的清洗效果,此时我们可以点击该区域,选择【无效区域】,将其标注为无效区域。
- 对表格内容的修改 对已经识别的表格内容,我们可以将其转换为图片或者无效区域。 例如,如果我们希望被识别的表格以图片的形式,与对应的文本同时输出,我们可以点击该区域,选择【图片】操作,将其标记为图片。
- 对图片内容的修改 对已经识别的表格内容,我们可以将其转换为文字或者无效区域。 例如,如果我们带有文字的图片,被识别成文本,我们可以点击该区域,选择【文本】操作,将其标记为文本。
- 对已识别区域的删除 对已识别的区域,如果被重复识别或标注了,我们可以点击该区域,选择【删除】,将其直接删除,保持文档标注的简洁。
各类区域切换关系总结如下表:
无效 | 文本 | 表格 | 图片 | |
---|---|---|---|---|
无效 | 可从图片切回无效,可批量操作无效 | 不支持转换 | 不支持转换 | 可切换为图片 |
文本 | 可切换为无效 | 可从无效或图片切回文本 | 不支持转换 | 可切换为图片 |
表格 | 可切换为无效 | 不支持转换 | 可从无效或图片切回表格 | 可切换为图片 |
图片 | 可切换为无效 | 不支持转换 | 不支持转换 | 可从无效或图片切回图片 |
其他操作:按住shift键可聚合多个文本框。
1.4 文档类型对应清洗方式
1.TXT:通用文档、百问百答、数据表格、制度法规、电子书籍 2.PDF:通用文档、制度法规、电子书籍、产品画册 3.Markdown:通用文档 4.HTML:通用文档 5.XLSX:通用文档、百问百答、数据表格 6.CSV:通用文档、百问百答、数据表格 7.Docx:通用文档、制度法规、电子书籍
注意:如果发现上传文件后,发现选择不了自己想选的清洗方式。大概率是因为文档的格式不对,需要检查文档当前格式是否对应预期的清洗方式。
二、语料切片调整方法
Q&A等通过自动清洗算法即可清洗成结构化的优质语料,若非更新则无需调整。但大部分体量大、图文表并茂的知识内容,一般是先经过【自定义清洗】初步形成语料,在后期可能需要根据问答的情况进行调整。本章将会详细介绍语料切片的调整方式。
2.1 拆分合并语料切片
2.1.1 合并语料切片
点击语料库的特定文档的【语料切片】按钮,进入查看切片。如果发现同一主题的内容因为清洗时因为【最大分片长度】等限制被分隔开,可以点击相邻切片之间的【合并】按钮。如图所示:
操作 | 合并前 | 合并后 |
---|---|---|
合并切片 |
2.1.2 拆分语料切片
查看语料切片时若发现同一切片内有不同主题的内容,需要进行拆分时,可以将鼠标放在应该拆开的位置,悬浮出“剪刀”符号后点击一下,即可拆分语料切片。
操作 | 拆分前 | 拆分后 |
---|---|---|
拆分切片 |
2.2 编辑知识点检索块
一方面,作为智能问答依托的知识点,尝尝可能因为知识更新等原因需要编辑。另一方面,通过调优等发现召回效果不佳时,编辑知识点检索块是重要的解决方案。本节主要介绍知识点检索块的编辑方式。
目前53AI系统平台上,知识文档经过清洗后,会以知识点的形式放入markdown编辑器内,支持常见的文字编辑方式,还可以插入图片、文件、表格、链接、视频、代码块、行内代码、分隔线、起始插入行、末尾插入行、图表、数据公式、流程图、脑图、时序图以及甘特图等。如图所示:
根据需要修改好知识点后,若点击【保存】,则知识点保存成功,但检索块不发生变化。若点击【保存并重新生成检索块】,则知识点保存成功的同时,检索块也会随着知识点的内容更新
检索块支持独立编辑和添加,进入【检索块】页面后直接点击文字修改内容即可。点击右上角的【+添加】按钮,输入文字即可生成新的检索块。如图所示:
2.3 关联语料
对语料切片采用【关联】功能,可以使得不同位置的语料切片能被关联在一起,在智能问答的过程中,一个切片被召回,其他的关联语料切片将会一同出现在召回列表里,一起作为某个具体问题的回答依据。本节主要介绍关联语料切片的具体操作方式。
操作方式:
- 第一步,找到需添加关联语料的切片,点击其右上角的【编辑】按钮,进入切片详情页
- 第二步,下滑找到【关联语料】栏目,点击【+添加】按钮。
- 第三步,在搜索框内输入要关联的语料切片的关键词或语料切片的序号,点击选中,最后点击【确定】按钮
三、常见疑问
1.一个文档需要多个知识库调用,要怎么处理? 答:设置通用知识库,里面清洗通用文档,在其它知识库需要调用时进行调用。
2.数据清洗的各种分片标识符有什么区别?用哪种最好? 答:采用哪种标识符,应该和整理知识的思路串在一起。比如:想用/n/n这个双换行符的话,在word里面,将应该分开的不同知识中间添加空行就可以了,适合简单的知识结构;知识比较庞大,换行和段落不能作为拆分标准,那么可以使用一个文本内容不包含的符号去进行标记,比如“%%%%”,用这个符号来分开不同的知识。
3.数据清洗时,分片最大长度应该怎么设置比较好? 答:确定好问答颗粒度,然后在清洗步骤中,设置多几个数字,点击【确认并预览】,多试几次可以试出本文档比较适合的分片长度;如果觉得麻烦,可以先设置大一点比如2000,后续再进行拆分。推荐前者。
4.语料清洗显示排队中是为什么? 答:当前企业有多个文档进行清洗中,需排队进行清洗。