日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]文本語義相似度計算的方法及裝置有效

專利信息
申請?zhí)枺?/td> 201611155781.7 申請日: 2016-12-14
公開(公告)號: CN106776559B 公開(公告)日: 2020-08-11
發(fā)明(設(shè)計)人: 趙耕弘 申請(專利權(quán))人: 東軟集團(tuán)股份有限公司
主分類號: G06F40/289 分類號: G06F40/289;G06F40/30
代理公司: 北京鼎佳達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11348 代理人: 劉喆;劉鐵生
地址: 110179 遼*** 國省代碼: 遼寧;21
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 文本 語義 相似 計算 方法 裝置
【說明書】:

發(fā)明公開了一種文本語義相似度計算的方法及裝置,涉及自然語言處理技術(shù)領(lǐng)域,解決了現(xiàn)有文本相似度計算方法準(zhǔn)確性較低的問題。本發(fā)明的方法包括:將第一文本對應(yīng)的第一詞袋與第二文本對應(yīng)的第二詞袋中的詞合并得到一個維度詞袋;根據(jù)基于語義的詞轉(zhuǎn)換向量工具對所述第一詞袋以及所述第二詞袋進(jìn)行向量化計算,得到第一向量和第二向量,所述第一向量和所述第二向量的維度與所述維度詞袋中的詞一一對應(yīng);根據(jù)向量相似度計算算法計算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度結(jié)果。本發(fā)明應(yīng)用于文本相似度計算的過程中。

技術(shù)領(lǐng)域

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種文本語義相似度計算的方法及裝置。

背景技術(shù)

在自然語言處理過程中,計算文本間相似度是文本處理的基礎(chǔ)運算,利用文本間相似度,或者反方向計算出文本間距離,可以完成類似于文本查重,熱點抽取,興趣發(fā)現(xiàn)等功能。此外,利用文本間相似度作為前置運算,后續(xù)可以完成針對于大量文本進(jìn)行聚類或者分類等復(fù)雜計算。而對于這種復(fù)雜運算,作為前置運算的文本相似度的精度直接影響著最終運算的結(jié)果。

文本作為一種非結(jié)構(gòu)化數(shù)據(jù),在計算處理時通常被理解為無限維度的對象,所以在計算文本間相似度之前,需要進(jìn)行結(jié)構(gòu)化的降維處理。對于文本降維,目前常用的降維方式有根據(jù)詞頻統(tǒng)計進(jìn)行降維,根據(jù)詞的重要程度值(Term Frequency–Inverse DocumentFrequency,TFIDF)值進(jìn)行降維。但是,對于詞頻統(tǒng)計和TFIDF值等方式進(jìn)行文本降維時,這種運算是單純的基于詞的出現(xiàn)概率來進(jìn)行的,即只能在相同詞的維度上進(jìn)行相似度的計算,即使是同義的不同詞維度也無法進(jìn)行相似度的計算,而對于兩篇文本中詞維度不同的情況下,需要使用兩篇文本中相同詞的維度進(jìn)行相似度計算,而僅使用相同詞的維度很可能無法完整地反映文本的語義特征,因此最終計算得到的相似度結(jié)果通常不能較準(zhǔn)確的反應(yīng)文本間的語義相似度。

發(fā)明內(nèi)容

鑒于上述問題,本發(fā)明提供一種文本語義相似度計算的方法及裝置,用以解決現(xiàn)有的文本語義相似度計算方法準(zhǔn)確性較低的問題。

為解決上述技術(shù)問題,第一方面,本發(fā)明提供了一種文本語義相似度計算的方法,所述方法包括:

將第一文本對應(yīng)的第一詞袋與第二文本對應(yīng)的第二詞袋中的詞合并得到一個維度詞袋,所述第一文本和第二文本為進(jìn)行相似度計算的文本,所述第一詞袋中的詞為第一文本進(jìn)行分詞得到的詞,所述第二詞袋中的詞為第二文本進(jìn)行分詞得到的詞;

根據(jù)基于語義的詞轉(zhuǎn)換向量工具對所述第一詞袋以及所述第二詞袋進(jìn)行向量化計算,得到第一向量和第二向量,所述第一向量和所述第二向量的維度與所述維度詞袋中的詞一一對應(yīng);

根據(jù)向量相似度計算算法計算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度結(jié)果。

第二方面,本發(fā)明提供了一種文本語義相似度計算的裝置,所述裝置包括:

合并單元,用于將第一文本對應(yīng)的第一詞袋與第二文本對應(yīng)的第二詞袋中的詞合并得到一個維度詞袋,所述第一文本和第二文本為進(jìn)行相似度計算的文本,所述第一詞袋中的詞為第一文本進(jìn)行分詞得到的詞,所述第二詞袋中的詞為第二文本進(jìn)行分詞得到的詞;

向量化單元,用于根據(jù)基于語義的詞轉(zhuǎn)換向量工具對所述第一詞袋以及所述第二詞袋進(jìn)行向量化計算,得到第一向量和第二向量,所述第一向量和所述第二向量的維度與所述維度詞袋中的詞一一對應(yīng);

相似度計算單元,用于根據(jù)向量相似度計算算法計算所述第一向量和所述第二向量的相似度值,得到所述第一文本和所述第二文本的相似度結(jié)果。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611155781.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品第56页| 欧美午夜一区二区三区精美视频| 国产一区在线免费| 亚洲日本国产精品| 最新国产精品久久精品| 午夜肉伦伦| 欧美在线观看视频一区二区| 欧美国产一区二区在线| 国产日韩麻豆| 午夜特级片| 欧美精品粉嫩高潮一区二区| 91视频一区二区三区| 午夜激情电影院| 欧美极品少妇xxxxⅹ| 男女午夜影院| 鲁一鲁一鲁一鲁一鲁一av| 26uuu亚洲电影在线观看| 国产欧美日韩另类| 国产视频精品久久| 国产一区二区三区四区五区七| 欧美日韩一区二区三区四区五区六区| 日韩一区国产| 久久精品国语| 欧美激情精品久久久久久免费 | 日韩一级视频在线| 99久久精品国| 国产精品无码永久免费888| 久久91久久久久麻豆精品| 色狠狠色狠狠综合| 欧美午夜一区二区三区精美视频| 91久久精品在线| 91久久国语露脸精品国产高跟| 国产精品一区在线观看你懂的| 午夜亚洲国产理论片一二三四| 91波多野结衣| 91精品黄色| 精品亚洲午夜久久久久91| 91久久精品国产亚洲a∨麻豆| 久久久国产精品一区| 日本一二三不卡| 日韩精品免费一区二区夜夜嗨| 欧美在线一区二区视频| 国产jizz18女人高潮| 国产91热爆ts人妖系列| 国产一区二区片| 挺进警察美妇后菊| 国产欧美日韩精品一区二区图片| 午夜一级电影| 处破大全欧美破苞二十三| 91一区在线观看| 国产精品美乳在线观看| 亚洲国产精品国自产拍久久| 8x8x国产一区二区三区精品推荐| 国产欧美日韩在线观看 | 91丝袜国产在线播放| 国产精品亚州| 26uuu亚洲电影在线观看| 日本一区二区三区四区高清视频| 日本三级香港三级| 色天天综合久久久久综合片| 精品综合久久久久| 超碰97国产精品人人cao| 97人人添人人爽一区二区三区| 午夜伦理片在线观看| 日韩偷拍精品| 欧美日韩国产在线一区| 91在线一区| 午夜无人区免费网站| 国产乱人伦精品一区二区| 欧美精品国产一区| 色综合久久久| 精品少妇一区二区三区| 岛国黄色网址| 伊人精品一区二区三区| 久久久久久久久亚洲精品 | 国产精品96久久久| 一区二区在线精品| 国产二区免费视频| 免费xxxx18美国| 特高潮videossexhd| 国产中文字幕一区二区三区| 精品久久久久久亚洲综合网 |