[發明專利]一種知識庫構建方法及裝置有效
| 申請號: | 201910065035.6 | 申請日: | 2019-01-23 |
| 公開(公告)號: | CN109858626B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 王卓然;亓超;馬宇馳;郭偉;陳華榮 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識庫 構建 方法 裝置 | ||
1.一種知識庫構建方法,其特征在于,包括:
將素材文本拆分成多個短句,所述素材文本是待建知識庫所服務的行業所涉及到的素材文本;
針對任意兩個短句均執行對兩個短句分別進行分詞處理,基于分詞處理的兩個短句得到兩個短句分別對應的詞頻向量;判斷兩個短句的詞頻向量之間余弦值是否小于預設的余弦值閾值,若是,確定兩個短句語義相似的操作,得到多個短句中語義相似的短句;
合并語義相似的短句形成備選答案;
收集所述待建知識庫的至少一個問題;
對所述至少一個問題進行預處理;
依據預處理后的問題,確定每一個備選答案的第一標簽以及確定每一個預處理后的問題的第二標簽;第一標簽和第二標簽的數量均為至少一個;針對每一個預處理后的問題均執行在備選答案中選取第一標簽與該問題的第二標簽相同的備選答案,并將相同標簽數量最多的備選答案確定為與所述預處理后的問題語義相似的備選答案,得到所述預處理后的問題的答案;
基于所述預處理后的問題以及所述預處理后的問題的答案,得到至少一個問題答案對;
判斷是否已具有所述待建知識庫;若已具有,則將所述至少一個問題答案對中與所述待建知識庫的已有問題答案對語義不相似的問題答案對,添加到所述待建知識庫中;否則,將所述至少一個問題答案對添加到所述待建知識庫對應的預設知識庫架構中,形成所述待建知識庫。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
針對每一個所述短句均執行:利用預設的左右信息熵方法從所述短句中提取關鍵字;將所述關鍵字確定為所述短句的標簽;
將所述多個短句中標簽相同的短句確定為語義相似的短句。
3.根據權利要求2所述的方法,其特征在于,在所述利用預設的左右信息熵方法從所述短句中提取關鍵字之前,該方法還包括:
判斷所述多個短句中是否存在已具有標簽短句;
若存在,將與所述短句語義相似的已具有標簽短句的標簽確定為所述短句的標簽。
4.根據權利要求1所述的方法,其特征在于,所述收集所述待建知識庫的至少一個問題,包括:
獲取針對所述待建知識庫的人工客服歷史聊天記錄;
利用預設的分類模型從所述人工客服歷史聊天記錄中提取業務文本;
基于預設的聚類算法從所述業務文本提取所述至少一個問題。
5.根據權利要求4所述的方法,其特征在于,在所述基于預設的聚類算法從所述業務文本提取所述至少一個問題之前,該方法還包括:
檢測所述業務文本中是否存在與預設的垃圾文本庫中的垃圾文本語義相似的業務文本;若存在,剔除。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
將所述備選答案中與所述預處理后的問題語義相似的備選答案,確定為所述預處理后的問題的答案。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
確定每一個所述備選答案的標簽以及每一個所述預處理后的問題的標簽;
針對每一個所述預處理后的問題均執行:確定所述預處理后的問題的標簽針對每一個所述備選答案的標簽的詞頻;確定所述預處理后的問題的標簽針對所有所述備選答案的標簽的逆向文件頻率;基于所述詞頻和所述逆向文件頻率確定所述預處理后的問題的標簽針對每一個所述備選答案的分值;將最高分值對應的備選答案確定為所述預處理后的問題對應的備選答案。
8.根據權利要求1所述的方法,其特征在于,所述方法還包括:
校驗所述預處理后的問題以及與所述預處理后的問題的答案形成至少一個問題答案對;
將所述至少一個問題答案對添加到所述待建知識庫對應的預設知識庫架構中,形成所述待建知識庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910065035.6/1.html,轉載請聲明來源鉆瓜專利網。





