[發(fā)明專利]文本語義相似度計算的方法及裝置有效

申請?zhí)枺?/td>	201611155781.7	申請日：	2016-12-14
公開（公告）號：	CN106776559B	公開（公告）日：	2020-08-11
發(fā)明（設(shè)計）人：	趙耕弘	申請（專利權(quán)）人：	東軟集團(tuán)股份有限公司
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/30
代理公司：	北京鼎佳達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11348	代理人：	劉喆;劉鐵生
地址：	110179 遼***	國省代碼：	遼寧;21
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本語義相似計算方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種文本語義相似度計算的方法及裝置，涉及自然語言處理技術(shù)領(lǐng)域，解決了現(xiàn)有文本相似度計算方法準(zhǔn)確性較低的問題。本發(fā)明的方法包括：將第一文本對應(yīng)的第一詞袋與第二文本對應(yīng)的第二詞袋中的詞合并得到一個維度詞袋；根據(jù)基于語義的詞轉(zhuǎn)換向量工具對所述第一詞袋以及所述第二詞袋進(jìn)行向量化計算，得到第一向量和第二向量，所述第一向量和所述第二向量的維度與所述維度詞袋中的詞一一對應(yīng)；根據(jù)向量相似度計算算法計算所述第一向量和所述第二向量的相似度值，得到所述第一文本和所述第二文本的相似度結(jié)果。本發(fā)明應(yīng)用于文本相似度計算的過程中。

技術(shù)領(lǐng)域

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域，尤其涉及一種文本語義相似度計算的方法及裝置。

背景技術(shù)

在自然語言處理過程中，計算文本間相似度是文本處理的基礎(chǔ)運算，利用文本間相似度，或者反方向計算出文本間距離，可以完成類似于文本查重，熱點抽取，興趣發(fā)現(xiàn)等功能。此外，利用文本間相似度作為前置運算，后續(xù)可以完成針對于大量文本進(jìn)行聚類或者分類等復(fù)雜計算。而對于這種復(fù)雜運算，作為前置運算的文本相似度的精度直接影響著最終運算的結(jié)果。

文本作為一種非結(jié)構(gòu)化數(shù)據(jù)，在計算處理時通常被理解為無限維度的對象，所以在計算文本間相似度之前，需要進(jìn)行結(jié)構(gòu)化的降維處理。對于文本降維，目前常用的降維方式有根據(jù)詞頻統(tǒng)計進(jìn)行降維，根據(jù)詞的重要程度值(Term Frequency–Inverse DocumentFrequency，TFIDF)值進(jìn)行降維。但是，對于詞頻統(tǒng)計和TFIDF值等方式進(jìn)行文本降維時，這種運算是單純的基于詞的出現(xiàn)概率來進(jìn)行的，即只能在相同詞的維度上進(jìn)行相似度的計算，即使是同義的不同詞維度也無法進(jìn)行相似度的計算，而對于兩篇文本中詞維度不同的情況下，需要使用兩篇文本中相同詞的維度進(jìn)行相似度計算，而僅使用相同詞的維度很可能無法完整地反映文本的語義特征，因此最終計算得到的相似度結(jié)果通常不能較準(zhǔn)確的反應(yīng)文本間的語義相似度。

發(fā)明內(nèi)容

鑒于上述問題，本發(fā)明提供一種文本語義相似度計算的方法及裝置，用以解決現(xiàn)有的文本語義相似度計算方法準(zhǔn)確性較低的問題。

為解決上述技術(shù)問題，第一方面，本發(fā)明提供了一種文本語義相似度計算的方法，所述方法包括：

將第一文本對應(yīng)的第一詞袋與第二文本對應(yīng)的第二詞袋中的詞合并得到一個維度詞袋，所述第一文本和第二文本為進(jìn)行相似度計算的文本，所述第一詞袋中的詞為第一文本進(jìn)行分詞得到的詞，所述第二詞袋中的詞為第二文本進(jìn)行分詞得到的詞；

根據(jù)基于語義的詞轉(zhuǎn)換向量工具對所述第一詞袋以及所述第二詞袋進(jìn)行向量化計算，得到第一向量和第二向量，所述第一向量和所述第二向量的維度與所述維度詞袋中的詞一一對應(yīng)；

根據(jù)向量相似度計算算法計算所述第一向量和所述第二向量的相似度值，得到所述第一文本和所述第二文本的相似度結(jié)果。

第二方面，本發(fā)明提供了一種文本語義相似度計算的裝置，所述裝置包括：

合并單元，用于將第一文本對應(yīng)的第一詞袋與第二文本對應(yīng)的第二詞袋中的詞合并得到一個維度詞袋，所述第一文本和第二文本為進(jìn)行相似度計算的文本，所述第一詞袋中的詞為第一文本進(jìn)行分詞得到的詞，所述第二詞袋中的詞為第二文本進(jìn)行分詞得到的詞；

向量化單元，用于根據(jù)基于語義的詞轉(zhuǎn)換向量工具對所述第一詞袋以及所述第二詞袋進(jìn)行向量化計算，得到第一向量和第二向量，所述第一向量和所述第二向量的維度與所述維度詞袋中的詞一一對應(yīng)；

相似度計算單元，用于根據(jù)向量相似度計算算法計算所述第一向量和所述第二向量的相似度值，得到所述第一文本和所述第二文本的相似度結(jié)果。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司，未經(jīng)東軟集團(tuán)股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611155781.7/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：融合語境信息的領(lǐng)域術(shù)語識別方法
下一篇：一種柬埔寨語組織機(jī)構(gòu)名識別方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]文本語義相似度計算的方法及裝置有效

專利文獻(xiàn)下載