[發(fā)明專利]一種數(shù)據(jù)庫相似語句篩選的方法和裝置有效
| 申請?zhí)枺?/td> | 201910092111.2 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109829051B | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設計)人: | 黃永江;邱志國;莊紀軍;張毅;趙乾 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/30;G06Q30/02 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)庫 相似 語句 篩選 方法 裝置 | ||
1.一種數(shù)據(jù)庫相似語句篩選的方法,其特征在于,包括:
基于目標標準語句的多個目標擴展語句的語義向量和語義向量預期,從多個所述目標擴展語句中篩選獲得待質(zhì)檢擴展語句;
獲得每個所述待質(zhì)檢擴展語句的語義向量與數(shù)據(jù)庫中每個其他擴展語句的語義向量的相似度;所述其他擴展語句為其他標準語句的擴展語句,所述其他標準語句為所述目標標準語句之外的標準語句;
基于所述相似度和第一預設篩選條件,從各個所述待質(zhì)檢擴展語句和各個所述其他擴展語句中篩選獲得相似待質(zhì)檢擴展語句和對應的相似其他擴展語句。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于目標標準語句的多個目標擴展語句的語義向量和語義向量預期,從多個所述目標擴展語句中篩選獲得待質(zhì)檢擴展語句,包括:
利用預先訓練的語義度量模型獲得所述多個目標擴展語句的語義向量;
基于多個所述目標擴展語句的語義向量獲得語義中心向量;
獲得每個所述目標擴展語句的語義向量與所述語義中心向量的第一余弦距離;
基于所述第一余弦距離和第二預設篩選條件,從各個所述目標擴展語句篩選獲得所述待質(zhì)檢擴展語句。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括:
基于所述目標標準語句與每個目標其他標準語句之間所述相似待質(zhì)檢擴展語句的總數(shù)量、所述目標擴展語句的總數(shù)量、所述相似其他擴展語句的總數(shù)量和所述其他擴展語句的總數(shù)量,獲得所述目標標準語句的相似擴展語句比例和每個所述目標其他標準語句的相似擴展語句比例;所述目標其他標準語句為所述相似其他擴展語句所對應的其他標準語句;
基于所述目標標準語句的相似擴展語句比例和每個所述目標其他標準語句的相似擴展語句比例,獲得所述目標標準語句與每個所述目標其他標準語句的混淆度;
基于所述混淆度和第三預設篩選條件,從所述目標標準語句和各個所述目標其他標準語句篩選獲得混淆的目標標準語句與目標其他標準語句。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
基于每個所述相似待質(zhì)檢擴展語句的語義向量與對應的所述相似其他擴展語句的語義向量的相似度和最高相似度篩選規(guī)則,從各個所述相似待質(zhì)檢擴展語句和對應的所述相似其他擴展語句中篩選獲得目標相似待質(zhì)檢擴展語句和對應的目標相似其他擴展語句。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述利用預先訓練的語義度量模型獲得所述多個目標擴展語句的語義向量之前,還包括:
獲取所述數(shù)據(jù)庫的詞集庫中詞集與領域詞的對應關(guān)系;所述詞集庫包括多個詞集,所述詞集包括多個領域詞;
基于所述詞集與領域詞的對應關(guān)系對所述目標擴展語句中領域詞進行替換,獲得所述目標擴展語句對應的替換擴展語句;
根據(jù)所述目標擴展語句對應的替換擴展語句,更新多個所述目標擴展語句。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括:
記錄所述替換擴展語句對應的所述目標擴展語句的標識;
若各個所述相似待質(zhì)檢擴展語句中包括所述替換擴展語句,根據(jù)所述替換擴展語句對應的所述目標擴展語句的標識,獲得所述替換擴展語句對應的所述目標擴展語句;
將所述替換擴展語句對應的所述目標擴展語句確定為所述替換擴展語句對應的相似目標擴展語句。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,若所述目標標準語句與目標其他標準語句之間所述相似待質(zhì)檢擴展語句包括所述替換擴展語句,則所述目標標準語句與每個所述目標其他標準語句之間所述相似待質(zhì)檢擴展語句的總數(shù)量,是基于所述目標標準語句與目標其他標準語句之間所述相似待質(zhì)檢擴展語句的數(shù)量和所述替換擴展語句對應的相似目標擴展語句的數(shù)量得到的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910092111.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設備及存儲介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





