日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種句子相似度計算方法和系統在審

專利信息
申請號: 201611143723.2 申請日: 2016-12-13
公開(公告)號: CN106844331A 公開(公告)日: 2017-06-13
發明(設計)人: 楊萌;李培峰;朱巧明;周國棟;朱曉旭 申請(專利權)人: 蘇州大學
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 蘇州市中南偉業知識產權代理事務所(普通合伙)32257 代理人: 李陽
地址: 215000 江蘇*** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 句子 相似 計算方法 系統
【說明書】:

技術領域

本發明涉及自然語言處理領域,尤其涉及一種句子相似度計算方法和系統。

背景技術

相似度計算是自然語言處理的基礎工作。目前句子相似度計算方法主要有4類,分別是基于詞重疊的方法、基于語料庫統計的方法、基于語言學的方法和混合方法。

基于詞重疊的方法是用一組通過兩個句子所共有的一些詞匯量來計算句子的相似度的度量方法。Jacob等[4]提出Jaccard相似系數法,該方法計算兩個句子中詞語交集與兩句子中詞語并集的比值來計算句子的相似度。Metzler等[5]使用逆文檔頻率(IDF)作為兩個句子中均出現的詞語的權重,改進計算結果。Banerjee等[6]基于短語的長度和它們的使用頻率呈Zipfian分布的特點來設計基于短語的句子相似度計算方法。

基于語料庫的方法將句子對中出現的詞語集合用來作為特征集,將基于語料庫的向量的余弦夾角值作為相似度。Landauer等[7]通過分析一個大型的自然語言語料庫來統計關鍵詞的TF-IDF值形成句子語義向量,用向量的余弦夾角來計算句子語義相似度。Lund等[8]統計詞匯之間的共現性得到高維向量空間來計算句子或短文檔相似度。

基于語言學的方法利用詞匯間的語義關系及其語法成分來確定句子的相似度。Kashyap等[9]基于詞語語義相似度度量句子間的相似度,考慮單詞具有不同的區分能力來進行句子向量的相似度計算方法。Malik等[10]將組成句子對的詞之間的相似度的總和的最大值被句子長度歸一化所得值作為句子相似度值。

混合方法是基于以上方法的混合方法。Chukfong等[11-14]基于以上多種方法實現句子相似度計算。

現在基于結構化表示的句子相似度計算工作比較少,Aliaksei[15]提出了一種基于簡單結構化表示的計算方法。

現有句子相似度計算專利

一種基于語義的相似度計算方法和裝置:此發明提供了一種基于語義的相似度計算方法和裝置,其中方法包括:獲取待比較的句子S1和S2;分別對所述S1和S2進行分詞;對所述分詞后得到的各詞語中存在語義映射的詞語映射為歸一化的表述;計算經步驟C處理后的S1和S2之間的相似度Sim(S1,S2)。本發明通過將句子中存在語義映射的詞語映射到歸一化的表述,并將其融入相似度的計算,從而在語義上體現句子之間的相似度而不僅僅是字面上的相似程度,提高了計算句子之間相似度的準確性。

句子相似度計算方法及裝置:此發明提供一種準確度高的句子相似度計算方法及裝置。該句子相似度計算方法,包括:針對第一句子和第二句子確定重復詞、第一孤存詞和第二孤存詞,其中,重復詞既屬于第一句子又屬于第二句子,第一孤存詞僅屬于第一句子,第二孤存詞僅屬于第二句子;根據所有第一孤存詞和所有第二孤存詞,計算孤存詞相似度總貢獻值G總,其中,G總≥0,并且所有第一孤存詞與所有第二孤存詞之間的相似程度越高,G總數值越大;根據公式計算SIM(A,B),其中SIM(A,B)表示第一句子和第二句子的句子相似度,G表示第一句子對應的第一句向量,G表示第二句子對應的第二句向量。

一種句子相似度的計算方法及系統:此發明提供了一種句子相似度的計算方法及系統,通過利用word2vec算法,對預先建立的語料庫進行訓練,得到語料庫中所有詞語的向量;對待計算相似度的兩個句子進行智能分詞,并從語料庫中查找出所述第一句子和第二句子中各個分詞所對應的向量,依次計算第一句子每個分詞與第二句子各個分詞之間的相似度;獲取分詞之間的相似度超過預定閾值的兩組分詞集合,并根據所述每組分詞位于句子位置的偏移量,計算每組分詞在整個句子中相似度的貢獻值;將兩個句子中分詞的貢獻值相加,得到句子之間的相似度。

現存的大多數句子相似度計算方法使用大量平面相似性特征來表示一對句子的相似程度。僅使用平面特征向量代表句子對相似度的問題是其表征性較弱。

最新的一些相似度計算方法,依賴于詞的搭配和從大數據中獲得的知識(維基百科等)來進行相似度計算,不考慮句子句法等結構化信息。假設給定兩個句子S1和S2,這些方法一般會做如下處理:第一步,S1中的每個單詞將會與在S2中與它相似度最高的單詞配對。第二步,所有的配對詞間的相似度累加,并通過S1的句長對相似度進行規范化處理,進而得到句子S1與S2的相似度。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611143723.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品一区在线观看你懂的| 岛国精品一区二区| 香蕉视频在线观看一区二区| 国产日韩欧美二区| 91精品久久久久久久久久| 自拍偷在线精品自拍偷写真图片 | 国产一区二区黄| 日韩中文字幕一区二区在线视频| 欧美激情片一区二区| 欧美精品国产一区| 福利视频亚洲一区| 国产天堂第一区| 欧美日韩激情在线| 自拍偷在线精品自拍偷无码专区 | 久久精品色欧美aⅴ一区二区| 亚洲欧美另类国产| xx性欧美hd| 日本道欧美一区二区aaaa| 日本午夜一区二区| 偷拍精品一区二区三区| 午夜精品一区二区三区三上悠亚| 精品久久久久久中文字幕| 国产91久| 68精品国产免费久久久久久婷婷| 亚洲国产午夜片| 国产精品偷伦一区二区| 真实的国产乱xxxx在线91| 国产精品第56页| 一级午夜影院| 国产一区二区三区久久久| 亚洲欧美一二三| 国产在线精品二区| 少妇高潮大叫喷水| 国产伦精品一区二区三区照片91| 鲁一鲁一鲁一鲁一鲁一av| 精品综合久久久久| 欧美乱码精品一区二区三| 日韩午夜电影在线| 亚洲精品久久久久玩吗| 亚洲w码欧洲s码免费| 国产乱人乱精一区二视频国产精品| 日韩国产精品久久久久久亚洲| 久久国产这里只有精品| 午夜电影网一区| 亚洲自拍偷拍中文字幕| 中文字幕久久精品一区| 亚洲无人区码一码二码三码| 久久黄色精品视频| 欧美日韩国产一二| 国产精品一二三区视频网站| 国产精品自拍不卡| 亚洲欧美日韩另类精品一区二区三区| 国产97在线播放| 国产一区二区片| 亚洲美女在线一区| 欧美精品久久一区二区| 国产在线视频二区| 精品三级一区二区| 久久免费视频一区| 国产精品一二三区视频网站| 91av中文字幕| 国产精品偷伦一区二区| 国产精品亚洲欧美日韩一区在线| 国产一级在线免费观看| 91精品视频在线观看免费| 国产suv精品一区二区4| 欧美乱妇高清无乱码一级特黄| 久久国产精品久久| 日韩精品中文字幕一区二区三区 | 日韩一级精品视频在线观看 | 狠狠色噜噜狠狠狠狠| 亚洲精品日本无v一区| 精品三级一区二区| 日韩中文字幕一区二区在线视频| 欧美精品粉嫩高潮一区二区 | 国产精品高潮呻吟久| 色综合久久久| 日韩久久精品一区二区| www.久久精品视频| 亚洲精品人| 国产欧美三区| 午夜av免费观看|