[發明專利]確定標準問題的方法及裝置有效
| 申請號: | 201910595511.5 | 申請日: | 2019-07-03 |
| 公開(公告)號: | CN110413749B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 梁忠平;蔣亮;溫祖杰;張家興 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F18/22;G06F16/35 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 標準 問題 方法 裝置 | ||
1.一種確定標準問題的方法,所述方法包括:
獲取多個文本類簇分別對應的代表文本,其中,所述多個文本類簇是對多個用戶問題分別對應的文本進行聚類分析得到的;
獲取各個代表文本的特征值,使得任意兩個代表文本的特征值之間的差值與所述任意兩個代表文本的語義相似程度負相關;
根據各個代表文本的特征值對各個代表文本排序,得到文本序列;
接收對所述文本序列的標注信息,所述標注信息指示了所述文本序列中的至少一個子序列,同一個子序列包含的多個代表文本語義相似;
針對每個子序列,確定用于代表該子序列的選定文本;
根據各個子序列對應的所述選定文本以及未包含于各個子序列的代表文本,確定多個標準問題。
2.根據權利要求1所述的方法,其中,
在所述獲取多個文本類簇分別對應的代表文本之前,還包括:
獲取多個用戶問題分別對應的文本的特征向量;
根據各個文本的特征向量,基于聚類算法對各個文本進行聚類分析,得到所述多個文本類簇;
所述聚類算法包括:DBSCAN、HDBSCAN、BIRCH及HAC中的任一項。
3.根據權利要求1所述的方法,其中,
所述獲取各個代表文本的特征值,包括:
獲取各個代表文本的特征向量;
基于T-SNE算法對各個代表文本的特征向量進行降維,得到各個代表文本的特征值。
4.根據權利要求1所述的方法,其中,
所述獲取各個代表文本的特征值,包括:
獲取第一語言模型,其中,所述第一語言模型包含兩個分支,每個分支用于預測對應輸入的文本的特征值,所述第一語言模型被訓練為,兩個分支預測的兩個特征值之間的差值與對應輸入的兩個文本的語義相似程度負相關;
將各個代表文本分別輸入所述第一語言模型的任意一個分支,通過所述任意一個分支得到各個代表文本的特征值。
5.根據權利要求4所述的方法,其中,
所述第一語言模型基于多組訓練樣本訓練得到,其中,每組訓練樣本包括兩個訓練文本,以及包括用于指示所述兩個訓練文本是否語義相似的標簽。
6.根據權利要求5所述的方法,其中,
所述第一語言模型的兩個分支為第一分支和第二分支,每組所述訓練樣本包括第一訓練文本和第二訓練文本,所述第一語言模型通過以下方式訓練得到:
將任一組訓練樣本包括的第一訓練文本和第二訓練文本,分別輸入所述第一語言模型的第一分支和第二分支;
得到第一分支針對第一訓練文本預測的第一特征值,以及第二分支針對第二訓練文本預測的第二特征值;
根據第一特征值和第二特征值之間的差值,以及所述任一組訓練樣本包括的標簽,更新所述第一語言模型。
7.根據權利要求4所述的方法,其中,所述第一語言模型是基于BERT的語言模型。
8.根據權利要求1所述的方法,其中,
所述針對每個子序列,確定用于代表該子序列的選定文本,包括:針對每個子序列,從該子序列包含的多個代表文本中選擇一個作為所述選定文本。
9.根據權利要求1所述的方法,其中,
所述針對每個子序列,確定用于代表該子序列的選定文本,包括:
針對每個子序列,合并該子序列包含的多個代表文本分別對應的文本類簇中的文本,得到該子序列對應的文本集合;
從該子序列對應的文本集合中選擇一個文本作為所述選定文本。
10.根據權利要求1所述的方法,其中,
所述標注信息包括:與至少一個子序列一一對應的至少一條指示信息,所述指示信息指示了對應的子序列在文本序列中的起始位置及截止位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910595511.5/1.html,轉載請聲明來源鉆瓜專利網。





