[發明專利]文本語義相似度計算方法、裝置及用戶終端有效
| 申請號: | 201710109061.5 | 申請日: | 2017-02-27 |
| 公開(公告)號: | CN108509407B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 孟令勛;王嘉勛 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/30 |
| 代理公司: | 北京博雅睿泉專利代理事務所(特殊普通合伙) 11442 | 代理人: | 唐麗 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語義 相似 計算方法 裝置 用戶 終端 | ||
1.一種文本語義相似度計算方法,其特征在于,所述方法包括:
建立第一文本對應的第一詞向量矩陣以及第二文本對應的第二詞向量矩陣,所述第一詞向量矩陣由第一詞向量構成,所述第二詞向量矩陣由第二詞向量構成;
以一個預定模態表示一種語義,根據第一詞向量矩陣、第二詞向量矩陣以及預定模態數目,計算所述第一詞向量矩陣中的每個第一詞向量和所述第二詞向量矩陣中的每個第二詞向量在不同模態下的相似度,得到所述第一文本與所述第二文本間的多模態相似度矩陣,所述多模態相似度矩陣中包括相似度量參數;
利用人工神經網絡算法,迭代優化所述多模態相似度矩陣中的相似度量參數、第一詞向量、第二詞向量以及引入的人工神經網絡參數;所述利用人工神經網絡算法,迭代優化所述多模態相似度矩陣中的相似度量參數、第一詞向量、第二詞向量以及引入的人工神經網絡參數,包括:提取所述多模態相似度矩陣的特征矩陣,所述特征矩陣中包括特征矩陣參數;對所述特征矩陣進行全連接;將所述特征矩陣進行全連接后的輸出值、所述第一文本的預定特征值以及所述第二文本的預定特征值進行二值分類,其中,以所述二值分類的輸出值作為迭代輸出結果;
當達到預定迭代結束條件,以根據優化后的相似度量參數、優化后的第一詞向量、優化后的第二詞向量以及人工神經網絡參數確定的迭代輸出結果作為所述第一文本與所述第二文本之間的語義相似度。
2.根據權利要求1所述的方法,其特征在于,所述利用人工神經網絡算法,迭代優化所述多模態相似度矩陣中的相似度量參數、第一詞向量、第二詞向量以及引入的人工神經網絡參數還包括:
當未達到預定迭代結束條件,調整所述第一詞向量、所述第二詞向量、所述相似度量參數、所述特征矩陣參數以及所述全連接的參數,所述人工神經網絡參數包括所述特征矩陣參數以及所述全連接的參數。
3.根據權利要求2所述的方法,其特征在于,所述第一文本的預定特征值為所述第一文本中的詞語重復率;所述第二文本的預定特征值為所述第二文本中的詞語重復率。
4.根據權利要求2所述的方法,其特征在于,所述提取所述多模態相似度矩陣的特征矩陣包括:
對所述多模態相似度矩陣進行卷積,獲得卷積特征矩陣;
對所述卷積特征矩陣進行池化,獲得所述特征矩陣。
5.根據權利要求1所述的方法,其特征在于,所述預定迭代結束條件為,迭代次數達到預定次數或者所述迭代輸出結果在預設次數內的變化值小于預設值。
6.根據權利要求1所述的方法,其特征在于,所述建立第一文本對應的第一詞向量矩陣以及第二文本對應的第二詞向量矩陣包括:
對所述第一文本以及所述第二文本進行分詞,獲得所述第一文本對應的多個詞語以及所述第二文本對應的多個詞語;
根據所述第一文本對應的每個詞語的序列號從預設詞向量列表獲取多個第一詞向量,根據所述第二文本對應的每個詞語的序列號從預設詞向量列表獲取多個第二詞向量,所述預設詞向量列表包括多個詞向量以及每個詞向量對應的序列號;
根據所述多個第一詞向量建立所述第一詞向量矩陣,根據所述多個第二詞向量建立所述第二詞向量矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710109061.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語料抽取方法、裝置和電子設備
- 下一篇:一種句子相似度判斷方法





