[發明專利]一種語句相似度計算方法、裝置及計算機設備有效
| 申請號: | 201911044280.5 | 申請日: | 2019-10-30 |
| 公開(公告)號: | CN110781686B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 周學陽;井玉欣;陳甜甜;崔妲珅;宋忠森 | 申請(專利權)人: | 普信恒業科技發展(北京)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/126;G06F16/35;G06F18/22 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王小清 |
| 地址: | 100026 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語句 相似 計算方法 裝置 計算機 設備 | ||
本發明提供了一種語句相似度計算方法、裝置及計算機設備,將待計算相似度的至少兩個語句輸入到語義向量計算模型組中,語義向量計算模型組中包含至少兩個語義向量計算模型,至少兩個語義向量計算模型共用一套模型參數,不同語句對應輸入到不同語義向量計算模型中;利用任一個語義向量計算模型,將各自接收到的語句分別編碼為預設維度的語義向量并輸入到相似度計算模型中;利用相似度計算模型,將任意兩個預設維度的語義向量轉化為一個二分類向量,并依據二分類向量得到任意兩個語句的相似度。語義向量計算模型組為多輸入模型,不同語句可以對應輸入到不同語義向量計算模型中,無需執行語句拼接的步驟,提高語句相似度計算效率。
技術領域
本發明涉及自然語言處理技術領域,更具體的說,是涉及一種語句相似度計算方法、裝置及計算機設備。
背景技術
在自然語言處理的技術領域中,對于兩個語句之間計算相似度的應用非常廣泛。目前采用的基于模型的語句相似度計算方式中,所采用的模型都是單輸入模型,在進行語句相似度計算之前,需要將待計算相似度的語句進行拼接,得到一條拼接語句,將該拼接語句輸入到模型中進行語義分析、進而進行相似度的計算。因此,在將某一目標語句與多個候選語句進行相似度計算之前,需要將該目標語句與每一個候選語句都拼接一次,耗時較長,導致語句相似度計算效率低。
基于此,如何提高語句相似度計算效率,成為目前需要解決的技術問題。
發明內容
有鑒于此,本發明提供了一種語句相似度計算方法、裝置及計算機設備,以提高語句相似度計算效率。
為實現上述目的,本發明提供如下技術方案:
一種語句相似度計算方法,所述方法包括:
將待計算相似度的至少兩個語句輸入到預先構建的語義向量計算模型組中,所述語義向量計算模型組中包含至少兩個語義向量計算模型,所述語義向量計算模型組中的至少兩個語義向量計算模型共用一套模型參數,其中,不同語句對應輸入到所述語義向量計算模型組中的不同語義向量計算模型中;
利用任一個語義向量計算模型,將各自接收到的語句分別編碼為預設維度的語義向量;
將任一個語義向量計算模型得到的預設維度的語義向量輸入到預先訓練的相似度計算模型中;
利用所述相似度計算模型,將任意兩個預設維度的語義向量轉化為一個二分類向量;
利用所述相似度計算模型,依據所述二分類向量得到任意兩個語句的相似度。
優選的,所述利用任一個語義向量計算模型,將各自接收到的語句分別編碼為預設維度的語義向量的過程包括:
利用任一個語義向量計算模型,將各自接收到的語句中的每個詞轉化為預設維度的詞義向量;
利用任一個語義向量計算模型,將各自接收到的語句中的每個詞對應的預設維度的詞義向量進行組合,得到各自接收到的語句對應的預設維度的語義向量。
優選的,所述利用所述相似度計算模型,將任意兩個預設維度的語義向量轉化為一個二分類向量的過程包括:
利用所述相似度計算模型,計算任意兩個預設維度的語義向量對應的差值語義向量以及乘積語義向量;
利用所述相似度計算模型,將所述任意兩個預設維度的語義向量、所述任意兩個預設維度的語義向量對應的差值語義向量以及乘積語義向量進行向量拼接,得到一個高維分布式向量;
利用所述相似度計算模型,將所述高維分布式向量轉化為低維分布式向量;
利用所述相似度計算模型,將所述低維分布式向量轉化為二分類向量。
優選的,所述語義向量計算模型組以及相似度計算模型的訓練過程包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普信恒業科技發展(北京)有限公司,未經普信恒業科技發展(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911044280.5/2.html,轉載請聲明來源鉆瓜專利網。





