[發明專利]語義檢索方法、裝置、設備及存儲介質在審
| 申請號: | 202010519851.2 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111753069A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 羅濤;陳帥;劉作鵬 | 申請(專利權)人: | 北京小米松果電子有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/30 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 董曉盈 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 檢索 方法 裝置 設備 存儲 介質 | ||
1.一種語義檢索方法,其特征在于,所述方法包括:
獲得待查詢信息的目標語義向量;
確定與所述目標語義向量的各個分段向量距離最近的至少一個第一中心節點,其中,所述第一中心節點是預設數據庫中樣本向量的各分段向量聚類后得到的中心節點;
根據所述至少一個第一中心節點確定候選語句集合,所述候選語句集合包括至少一條預設數據庫中的語句;
根據所述待查詢信息與所述候選語句集合中的語句的相關程度,確定所述候選語句集合中的目標語句;
根據所述目標語句確定與所述待查詢信息相關的目標段落。
2.根據權利要求1所述的方法,其特征在于,所述獲得待查詢信息的目標語義向量,包括:
利用預先訓練的語義模型,將所述待查詢信息轉化為第一語義向量,將所述第一語義向量作為目標語義向量。
3.根據權利要求1所述的方法,其特征在于,所述獲得待查詢信息的目標語義向量,包括:
利用預先訓練的語義模型,將所述待查詢信息轉化為第一語義向量;
對所述第一語義向量進行第一量化,確定與所述第一語義向量距離最近的第一量化中心節點;
將所述第一語義向量與所述第一量化中心節點作向量減法,得到第二語義向量;將所述第二語義向量作為目標語義向量。
4.根據權利要求1所述的方法,其特征在于,所述確定與所述目標語義向量的各個分段向量距離最近的至少一個第一中心節點,包括:
對于每個分段向量,獲取所述分段向量與所述預設數據庫中所在分段的所有第一中心節點之間的距離;
從獲取的所述距離中,確定距離最小的至少一個目標距離;
將所述至少一個目標距離對應的第一中心節點確定為與所述分段向量距離最近的至少一個第一中心節點。
5.根據權利要求1所述的方法,其特征在于,根據所述至少一個第一中心節點確定候選語句集合,包括:
根據所述待查詢信息所包括的目標詞,以及至少一個第一中心節點,確定候選語句集合。
6.根據權利要求5所述的方法,其特征在于,根據所述待查詢信息所包括的目標詞,以及所述至少一個第一中心節點,確定候選語句集合,包括:
根據所述目標詞,生成第一檢索條件;
根據所述至少一個第一中心節點,生成第二檢索條件;
在所述預設數據庫中進行檢索符合所述第一檢索條件和所述第二檢索條件的語句,作為候選語句。
7.根據權利要求6所述的方法,其特征在于,根據所述至少一個第一中心節點,生成第二檢索條件,包括:
獲取第一量化中心節點,所述第一量化中心節點為與所述待查詢信息經預先訓練的語義模型轉化成的第一語義向量距離最近的第二中心節點;
根據所述至少一個第一中心節點和所述第一量化中心節點,生成第二檢索條件。
8.根據權利要求1所述的方法,其特征在于,根據所述待查詢信息與所述候選語句集合中的語句的相關程度,確定所述候選語句集合中的目標語句,包括:
根據所述待查詢信息所包括的目標詞與所述候選語句集合中的語句的匹配程度,以及所述目標語義向量與所述語句的距離,確定所述候選語句集合中的目標語句。
9.根據權利要求8所述的方法,其特征在于,根據所述待查詢信息所包括的目標詞與所述候選語句集合中的語句的匹配程度,以及所述目標語義向量與所述語句的距離,確定所述候選語句集合中的目標語句,包括:
根據所述目標詞在所述候選語句集合中每條語句中的命中率、所述目標詞在所述候選語句集合中的所有語句中出現的頻率,以及第一語義向量與所述候選語句集合中的各個語句之間的乘積量化距離,從所述候選語句集合中選擇第一數量條候選語句;第一語義向量是待查詢信息經預先訓練的語義模型轉化得到的向量;
根據所述待查詢信息與所述第一數量條候選語句中每條語句之間的語義距離,從所述第一數量條候選語句中確定目標語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司,未經北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010519851.2/1.html,轉載請聲明來源鉆瓜專利網。





