[發明專利]確定標準問題的方法及裝置有效
| 申請號: | 201910595511.5 | 申請日: | 2019-07-03 |
| 公開(公告)號: | CN110413749B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 梁忠平;蔣亮;溫祖杰;張家興 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F18/22;G06F16/35 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 標準 問題 方法 裝置 | ||
本說明書實施例提供了一種確定標準問題的方法及裝置,方法包括:在獲取到多個用戶問題對應的多個代表文本之后,進一步獲取各個代表文本的特征值,使得任意兩個代表文本的特征值之間的差值與該任意兩個代表文本的語義相似程度負相關;然后根據各個代表文本的特征值對各個代表文本進行排序,得到文本序列,標注人員即可通過判斷文本序列中相鄰兩個代表文本是否語義相似,快速的發現由多個語義相似的代表文本連續排列而形成的子序列,并針對發現的各個子序列進行標注;后續可針對標注的每個子序列,確定能夠代表該子序列的選定文本,進而根據各個子序列對應的選定文本以及未包含于各個子序列的代表文本確定多個標準問題。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及確定標準問題的方法及裝置。
背景技術
在構建或更新智能客服機器人所對應的問答知識庫時,需要從大量用戶問題中確定出多個標準問題,然后針對多個標準問題分別配置標準答案。為了確定標準問題,通常需要對大量用戶問題分別對應的文本進行聚類分析,得到大量的文本類簇,然后從各個文本類簇中分別選擇一個代表文本,并根據選擇的各個代表文本確定多個標準問題。如果存在語義相似的標準問題,而針對語義相似的標準問題分別配置的標準答案又不一致甚至則存在邏輯上的沖突,則會導致智能客服機器人無法較好的實現智能問答業務。
現有技術中,需要進行較高程度的人工干預,才能較為有效的避免產生語義相似的標準問題。因此,希望能有改進的方案,能夠在較為有效的避免產生語義相似的標準問題的基礎上,降低人工干預程度。
發明內容
本說明書一個或多個實施例提供了一種確定標準問題的方法及裝置,能夠在較為有效的避免產生語義相似的標準問題的基礎上,降低人工干預程度。
第一方面,提供了一種確定標準問題的方法,所述方法包括:
獲取多個文本類簇分別對應的代表文本,其中,所述多個文本類簇是對多個用戶問題分別對應的文本進行聚類分析得到的;
獲取各個代表文本的特征值,使得任意兩個代表文本的特征值之間的差值與所述任意兩個代表文本的語義相似程度負相關;
根據各個代表文本的特征值對各個代表文本排序,得到文本序列;
接收對所述文本序列的標注信息,所述標注信息指示了所述文本序列中的至少一個子序列,同一個子序列包含的多個代表文本語義相似;
針對每個子序列,確定用于代表該子序列的選定文本;
根據各個子序列對應的所述選定文本以及未包含于各個子序列的代表文本,確定多個標準問題。
在一種可能的實施方式中,在所述獲取多個文本類簇分別對應的代表文本之前,還包括:
獲取多個用戶問題分別對應的文本的特征向量;
根據各個文本的特征向量,基于聚類算法對各個文本進行聚類分析,得到所述多個文本類簇;
所述聚類算法包括:DBSCAN、HDBSCAN、BIRCH及HAC中的任一項。
在一種可能的實施方式中,所述獲取各個代表文本的特征值,包括:
獲取各個代表文本的特征向量;
基于T-SNE算法對各個代表文本的特征向量進行降維,得到各個代表文本的特征值。
在一種可能的實施方式中,所述獲取各個代表文本的特征值,包括:
獲取第一語言模型,其中,所述第一語言模型包含兩個分支,每個分支用于預測對應輸入的文本的特征值,所述第一語言模型被訓練為,兩個分支預測的兩個特征值之間的差值與對應輸入的兩個文本的語義相似程度負相關;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910595511.5/2.html,轉載請聲明來源鉆瓜專利網。





