[發明專利]一種句子相似度計算方法和系統在審

申請號：	201611143723.2	申請日：	2016-12-13
公開（公告）號：	CN106844331A	公開（公告）日：	2017-06-13
發明（設計）人：	楊萌;李培峰;朱巧明;周國棟;朱曉旭	申請（專利權）人：	蘇州大學
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	蘇州市中南偉業知識產權代理事務所(普通合伙)32257	代理人：	李陽
地址：	215000 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種句子相似計算方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及自然語言處理領域，尤其涉及一種句子相似度計算方法和系統。

背景技術

相似度計算是自然語言處理的基礎工作。目前句子相似度計算方法主要有4類，分別是基于詞重疊的方法、基于語料庫統計的方法、基于語言學的方法和混合方法。

基于詞重疊的方法是用一組通過兩個句子所共有的一些詞匯量來計算句子的相似度的度量方法。Jacob等[4]提出Jaccard相似系數法，該方法計算兩個句子中詞語交集與兩句子中詞語并集的比值來計算句子的相似度。Metzler等[5]使用逆文檔頻率(IDF)作為兩個句子中均出現的詞語的權重，改進計算結果。Banerjee等[6]基于短語的長度和它們的使用頻率呈Zipfian分布的特點來設計基于短語的句子相似度計算方法。

基于語料庫的方法將句子對中出現的詞語集合用來作為特征集，將基于語料庫的向量的余弦夾角值作為相似度。Landauer等[7]通過分析一個大型的自然語言語料庫來統計關鍵詞的TF-IDF值形成句子語義向量，用向量的余弦夾角來計算句子語義相似度。Lund等[8]統計詞匯之間的共現性得到高維向量空間來計算句子或短文檔相似度。

基于語言學的方法利用詞匯間的語義關系及其語法成分來確定句子的相似度。Kashyap等[9]基于詞語語義相似度度量句子間的相似度，考慮單詞具有不同的區分能力來進行句子向量的相似度計算方法。Malik等[10]將組成句子對的詞之間的相似度的總和的最大值被句子長度歸一化所得值作為句子相似度值。

混合方法是基于以上方法的混合方法。Chukfong等[11-14]基于以上多種方法實現句子相似度計算。

現在基于結構化表示的句子相似度計算工作比較少，Aliaksei[15]提出了一種基于簡單結構化表示的計算方法。

現有句子相似度計算專利：

一種基于語義的相似度計算方法和裝置：此發明提供了一種基于語義的相似度計算方法和裝置，其中方法包括：獲取待比較的句子S1和S2；分別對所述S1和S2進行分詞；對所述分詞后得到的各詞語中存在語義映射的詞語映射為歸一化的表述；計算經步驟C處理后的S1和S2之間的相似度Sim(S1，S2)。本發明通過將句子中存在語義映射的詞語映射到歸一化的表述，并將其融入相似度的計算，從而在語義上體現句子之間的相似度而不僅僅是字面上的相似程度，提高了計算句子之間相似度的準確性。

句子相似度計算方法及裝置：此發明提供一種準確度高的句子相似度計算方法及裝置。該句子相似度計算方法，包括：針對第一句子和第二句子確定重復詞、第一孤存詞和第二孤存詞，其中，重復詞既屬于第一句子又屬于第二句子，第一孤存詞僅屬于第一句子，第二孤存詞僅屬于第二句子；根據所有第一孤存詞和所有第二孤存詞，計算孤存詞相似度總貢獻值G總，其中，G總≥0，并且所有第一孤存詞與所有第二孤存詞之間的相似程度越高，G總數值越大；根據公式計算SIM(A,B)，其中SIM(A,B)表示第一句子和第二句子的句子相似度，G_總表示第一句子對應的第一句向量，G_總表示第二句子對應的第二句向量。

一種句子相似度的計算方法及系統：此發明提供了一種句子相似度的計算方法及系統，通過利用word2vec算法，對預先建立的語料庫進行訓練，得到語料庫中所有詞語的向量；對待計算相似度的兩個句子進行智能分詞，并從語料庫中查找出所述第一句子和第二句子中各個分詞所對應的向量，依次計算第一句子每個分詞與第二句子各個分詞之間的相似度；獲取分詞之間的相似度超過預定閾值的兩組分詞集合，并根據所述每組分詞位于句子位置的偏移量，計算每組分詞在整個句子中相似度的貢獻值；將兩個句子中分詞的貢獻值相加，得到句子之間的相似度。

現存的大多數句子相似度計算方法使用大量平面相似性特征來表示一對句子的相似程度。僅使用平面特征向量代表句子對相似度的問題是其表征性較弱。

最新的一些相似度計算方法，依賴于詞的搭配和從大數據中獲得的知識(維基百科等)來進行相似度計算,不考慮句子句法等結構化信息。假設給定兩個句子S1和S2，這些方法一般會做如下處理：第一步，S1中的每個單詞將會與在S2中與它相似度最高的單詞配對。第二步，所有的配對詞間的相似度累加，并通過S1的句長對相似度進行規范化處理，進而得到句子S1與S2的相似度。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于蘇州大學，未經蘇州大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611143723.2/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]一種句子相似度計算方法和系統在審

專利文獻下載