[發明專利]語義相似度計算方法及裝置在審
| 申請號: | 201810188175.8 | 申請日: | 2018-03-07 |
| 公開(公告)號: | CN108287824A | 公開(公告)日: | 2018-07-17 |
| 發明(設計)人: | 李勤 | 申請(專利權)人: | 北京云知聲信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;張國香 |
| 地址: | 100000 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 計算方法及裝置 神經網絡模型 語義相似度 特征矩陣 統計特征 相似度 句法 預設 預處理 相似度確定 詞性轉化 句子級別 短語 向量 詞語 融合 | ||
1.一種語義相似度計算方法,其特征在于,包括:
分別對句子對中的第一句子和第二句子進行預處理,提取第一句子對應的第一句法、第二句子對應的第二句法以及所述第一句子和所述第二句子之間的統計特征;
分別將所述第一句子和第二句子中的詞語和詞性轉化成向量,得到對應的第一特征矩陣和第二特征矩陣;
根據所述第一特征矩陣、第二特征矩陣和預設的第一深度神經網絡模型確定對應的第一句子初步表示和第二句子初步表示;
根據所述第一句子初步表示、第二句子初步表示、所述統計特征對應的統計特征向量和預設的第二深度神經網絡模型確定所述第一句子和所述第二句子之間的相似度;
根據所述第一句子和所述第二句子之間的相似度確定所述第一句子和所述第二句子是否相似。
2.根據權利要求1所述的語義相似度計算方法,其特征在于,所述分別將所述第一句子和第二句子中的詞語和詞性轉化成向量,確定對應的第一特征矩陣和第二特征矩陣,包括:
利用word2vec分別將所述第一句子和所述第二句子中的詞語轉化成詞向量,得到第一句子對應的第一詞語特征矩陣和第二句子對應的第二詞語特征矩陣;
利用pos2vec分別將所述第一句子和所述第二句子中的詞性轉化成詞性向量,得到第一句子對應的第一詞性特征矩陣和第二句子對應的第二詞性特征矩陣;
將所述第一詞語特征矩陣和所述第一詞性特征矩陣拼接得到所述第一特征矩陣,將所述第二詞語特征矩陣和所述第二詞特征矩陣拼接得到所述第二特征矩陣。
3.根據權利要求1所述的語義相似度計算方法,其特征在于,所述根據所述第一特征矩陣、第二特征矩陣和預設的第一深度神經網絡模型得到對應的第一句子初步表示和第二句子初步表示,包括:
分別將所述第一特征矩陣和所述第二特征矩陣作為所述第一深度神經網絡模型的輸入,得到對應的第一句子初步表示和第二句子初步表示。
4.根據權利要求1所述的語義相似度計算方法,其特征在于,所述根據所述第一句子初步表示、第二句子初步表示、所述統計特征對應的特征向量和預設的第二深度神經網絡模型確定所述第一句子和所述第二句子之間的相似度,包括:
分別對所述第一句子初步表示和所述第二句子初步表示做逐點相減和逐點相乘運算,得到對應的幾何距離特征矩陣和角度距離特征矩陣;
將所述統計特征編碼成向量,得到對應的統計特征向量;
將所述統計特征向量、所述幾何距離特征矩陣和所述角度距離特征矩陣進行拼接,得到拼接結果;
將所述拼接結果作為所述第二深度神經網絡模型的輸入,計算得到所述第一句子和所述第二句子的相似度。
5.根據權利要求1至4中任一項所述的語義相似度計算方法,其特征在于,所述根據所述第一句子和所述第二句子之間的相似度確定所述第一句子和所述第二句子是否相似,包括:
當所述第一句子和所述第二句子之間的相似度大于預設相似度時,確定所述第一句子和所述第二句子相似;
當所述第一句子和所述第二句子之間的相似度小于或者等于預設相似度時,確定所述第二句子和所述第二句子不相似。
6.一種語義相似度計算裝置,其特征在于,包括:
處理器;
用于存儲處理器可執行指令的存儲器;
其中,所述處理器被配置為:
分別對句子對中的第一句子和第二句子進行預處理,提取第一句子對應的第一句法、第二句子對應的第二句法以及所述第一句子和所述第二句子之間的統計特征;
分別將所述第一句子和第二句子中的詞語和詞性轉化成向量,得到對應的第一特征矩陣和第二特征矩陣;
根據所述第一特征矩陣、第二特征矩陣和預設的第一深度神經網絡模型確定對應的第一句子初步表示和第二句子初步表示;
根據所述第一句子初步表示、第二句子初步表示、所述統計特征對應的統計特征向量和預設的第二深度神經網絡模型確定所述第一句子和所述第二句子之間的相似度;
根據所述第一句子和所述第二句子之間的相似度確定所述第一句子和所述第二句子是否相似。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云知聲信息技術有限公司,未經北京云知聲信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810188175.8/1.html,轉載請聲明來源鉆瓜專利網。





