[發明專利]基于內部對抗機制的語義匹配方法、裝置及存儲介質有效
| 申請號: | 202010119430.0 | 申請日: | 2020-02-26 |
| 公開(公告)號: | CN111427995B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 駱迅;王科強;郝新東 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06F40/30;G06N3/0464;G06N3/08 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內部 對抗 機制 語義 匹配 方法 裝置 存儲 介質 | ||
1.一種基于內部對抗機制的語義匹配方法,其特征在于,包括如下步驟:
S110:對待匹配問題語句和候選問題語句分別進行分詞處理和分字處理;
S120:分別對每一條所述分詞處理后的候選問題語句和所述分詞處理后的待匹配問題語句進行詞向量化處理,以確定所述待匹配問題語句和所述候選問題語句基于詞的句子對的句向量特征集合;以及,分別對每一條所述分字處理后的候選問題語句和所述分字處理后的待匹配問題語句進行字向量化處理,以確定所述待匹配問題語句和所述候選問題語句基于字的句子對的句向量特征集合;其中,所述候選問題語句為通過搜索引擎在指定數據庫中檢索出的與待匹配問題語句具有設定相似度的至少一個問題語句;
S130:將所述基于詞的句子對的句向量特征集合和所述基于字的句子對的句向量特征集合進行拼接,確定所述候選問題語句與所述待匹配問題語句之間的相似度;
S140:將所述候選問題語句與所述待匹配問題語句之間的相似度按照由高向低的順序排序,選出所述相似度排序在設定名次內的候選問題語句作為相似候選問題語句;
S150:分別對每一條相似候選問題語句和所述分詞處理后的待匹配問題語句進行詞向量化處理,以及,分別對每一條相似候選問題語句和所述分字處理后的待匹配問題語句進行字向量化處理;以分別確定基于詞的所述待匹配問題語句的特征集合、基于詞的所述相似候選問題語句的特征集合、基于字的所述待匹配問題語句的特征集合、以及基于字的所述相似候選問題語句的特征集合;將所確定的四個特征集合進行拼接后,確定所述相似候選問題語句與所述待匹配問題語句之間的相似度;
S160:分別將所述相似候選問題語句與所述待匹配問題語句之間的相似度、以及所述候選問題語句與所述待匹配問題語句之間的相似度按照由高向低的順序排序,獲取設定名次內的排序結果;并將兩個排序結果作為皮爾遜相關系數計算公式的兩個變量,計算相關系數,若所述相關系數達到設定的閾值,則以所述待匹配問題語句與所述候選問題語句相似度排序第一名的候選問題語句為語義匹配的結果,若所述相關系數低于所述設定的閾值,則重新通過搜索引擎在指定數據庫中檢索與待匹配問題語句具有設定相似度的至少一個問題語句,進行所述S120。
2.如權利要求1所述的基于內部對抗機制的語義匹配方法,其特征在于,在S110中,
所述分詞處理包括:在對所述待匹配問題語句去停用詞、去特殊符號后,使用深度學習分詞器進行分詞處理;在對所述候選問題語句去停用詞、去特殊符號后,使用深度學習分詞器進行分詞處理;
所述分字處理包括:在對所述待匹配問題語句去停用詞、去特殊符號后,使用深度學習分詞器進行分字處理;在對所述候選問題語句去停用詞、去特殊符號后,使用深度學習分詞器進行分字處理。
3.如權利要求1所述的基于內部對抗機制的語義匹配方法,其特征在于,在S120中,所述分別對每一條所述分詞處理后的候選問題語句和所述分詞處理后的待匹配問題語句進行詞向量化處理,以確定所述待匹配問題語句和所述候選問題語句基于詞的句子對的句向量特征集合的過程包括:
將所述分詞處理后的待匹配問題語句分別進行Pre-train?Embedding處理和trainEmbedding處理后獲得的詞向量進行拼接,形成第一詞向量矩陣;以及,將所述候選問題語句分別進行Pre-train?Embedding處理和train?Embedding處理后獲得的詞向量進行拼接,形成第二詞向量矩陣;
分別對所述第一詞向量矩陣以及所述第二詞向量矩陣進行特征提取,以確定所述待匹配問題語句基于詞的句向量特征集合和所述候選問題語句基于詞的句向量特征集合;
分別對所述待匹配問題語句基于詞的句向量特征集合和所述候選問題語句基于詞的句向量特征集合進行降維;
將降維后的待匹配問題語句基于詞的句向量特征集合和候選問題語句基于詞的句向量特征集合拼接在一起,得到所述待匹配問題語句和所述候選問題語句基于詞的句子對的句向量特征集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010119430.0/1.html,轉載請聲明來源鉆瓜專利網。





