[發(fā)明專利]文本相似度的計(jì)算方法及系統(tǒng)、相似文本的查找方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201410270637.2 | 申請(qǐng)日: | 2014-06-17 |
| 公開(kāi)(公告)號(hào): | CN105224518B | 公開(kāi)(公告)日: | 2020-03-17 |
| 發(fā)明(設(shè)計(jì))人: | 劉健 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/289;G06F16/35 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 王花麗;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 計(jì)算方法 系統(tǒng) 查找 方法 | ||
本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,公開(kāi)了一種文本相似度的計(jì)算方法及系統(tǒng)、相似文本的查找方法及系統(tǒng)。其中,該文本相似度的計(jì)算方法包括:獲取需要進(jìn)行文本相似度計(jì)算的第一文本和第二文本;分別將第一文本、第二文本進(jìn)行詞匯分割,獲得第一詞匯集合和第二詞匯集合;分別將所述第一詞匯集合和所述第二詞匯集合中的停用詞刪除,獲得第三詞匯集合和第四詞匯集合;分別將所述第三詞匯集合和所述第四詞匯集合中的高頻詞匯提取出來(lái)組成第五詞匯集合和第六詞匯集合;根據(jù)所述第五詞匯集合和第六詞匯集合計(jì)算所述第一文本和所述第二文本。實(shí)施本發(fā)明實(shí)施例,可以提高文本相似度計(jì)算的準(zhǔn)確度,提高相似文本查找的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種文本相似度的計(jì)算方法及系統(tǒng)、相似文本的查找方法及系統(tǒng)。
背景技術(shù)
文本相似度計(jì)算和相似文本的查找在論文反抄襲、網(wǎng)站反假冒等領(lǐng)域有著廣泛的應(yīng)用,例如:
1、仿冒網(wǎng)站識(shí)別,以仿冒工商銀行網(wǎng)站為例,如果發(fā)現(xiàn)某網(wǎng)站內(nèi)容與工商銀行官網(wǎng)(http://www.icbc.com.cn)內(nèi)容接近,可以認(rèn)為此網(wǎng)站為仿冒網(wǎng)站。
2、論文抄襲識(shí)別,通過(guò)將論文與論文庫(kù)中的其它論文進(jìn)行比較,判定是否存在抄襲行為。
3、商品推薦系統(tǒng),比如用戶在網(wǎng)站購(gòu)買(mǎi)一本介紹計(jì)算機(jī)操作系統(tǒng)的書(shū)籍時(shí),可以自動(dòng)推薦與該書(shū)內(nèi)容相似的其他書(shū)籍。
4、相似去重,搜索引擎中自動(dòng)對(duì)相似網(wǎng)頁(yè)進(jìn)行去重,以提供給用戶更多有用的信息。
現(xiàn)有技術(shù)中常見(jiàn)的文本相似度計(jì)算方法包括以下幾種:
方案1、最長(zhǎng)公共字串算法,假設(shè)兩個(gè)字符串長(zhǎng)度分別為n和m,最長(zhǎng)公共字串長(zhǎng)度為c,則相似度為c/MIN(n,m),即c除以n和m中較小的值。比如“我叫張三”與“我叫李四”兩段文本,其最長(zhǎng)公共字串為“我叫”,相似度為2/MIN(4,4)=2/4=0.5。
方案2、最少編輯距離算法,指將一個(gè)字符串轉(zhuǎn)化為另一個(gè)字符串所需的最小編輯(增刪改操作)次數(shù)。比如上例中的需要將“張”改為“李”,“三”改為“四”,共2次編輯。假設(shè)兩個(gè)字符串長(zhǎng)度分別為n和m,最少編輯距離為d,則相似度為1-d/MIN(n,m)。
在計(jì)算得到文本相似度之后,可以再將相似度與閾值(例如以0.8為閾值)相比,超過(guò)閾值則為認(rèn)為文本相似。
現(xiàn)有技術(shù)中的各種文本相似度計(jì)算方法都存在一些問(wèn)題:
方案1和方案2都很容易繞過(guò),通過(guò)簡(jiǎn)單的詞匯、語(yǔ)句或段落換位就會(huì)導(dǎo)致相似度大大較低,其準(zhǔn)確度較低。比如下面兩段實(shí)質(zhì)內(nèi)容相同的文本內(nèi)容:“他現(xiàn)在的名字是張三”與“現(xiàn)在張三是他的名字”,采用方案1:最長(zhǎng)公共字串是“的名字”,相似度只有3/9=0.33;采用方案2:最小編輯距離為9,相似度為1-9/9=0;采用現(xiàn)有技術(shù)的方法來(lái)計(jì)算其文本相似度很低,可能被認(rèn)為不相似。
綜上,現(xiàn)有技術(shù)中的文本相似度計(jì)算方法,存在準(zhǔn)確度不高的問(wèn)題,也不利于從文本庫(kù)中查找到待測(cè)文本的相似文本。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例所要解決的技術(shù)問(wèn)題是提供一種文本相似度的計(jì)算方法及系統(tǒng)、相似文本的查找方法及系統(tǒng),用于提高文本相似度計(jì)算的準(zhǔn)確度,利于從文本庫(kù)中查找待測(cè)文本的相似文本。
本發(fā)明實(shí)施例提供一種文本相似度的計(jì)算方法,包括:
獲取需要進(jìn)行文本相似度計(jì)算的第一文本和第二文本;
將所述第一文本進(jìn)行詞匯分割獲得第一詞匯集合,將所述第二文本進(jìn)行詞匯分割獲得第二詞匯集合;
將所述第一詞匯集合中的停用詞刪除獲得第三詞匯集合,將所述第二詞匯集合中的停用詞刪除獲得第四詞匯集合;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410270637.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 相似圖像提取裝置、相似圖像提取方法以及相似圖像提取程序
- 一種鋼結(jié)構(gòu)火災(zāi)反應(yīng)分析方法
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像搜索方法、裝置和存儲(chǔ)介質(zhì)
- 基于相似壽命模型和相似壽命的復(fù)雜產(chǎn)品可靠性評(píng)定方法
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 口罩(相似)
- 臺(tái)燈(相似)
- 電網(wǎng)理論線損的計(jì)算方法和系統(tǒng)
- 一種基于XML的小衛(wèi)星遙測(cè)參數(shù)衍生計(jì)算方法
- 一種基于多尺度耦合的并行進(jìn)程合并方法及系統(tǒng)
- 一種注采井網(wǎng)流場(chǎng)速度的快速計(jì)算方法
- 一種自適應(yīng)實(shí)時(shí)火星系統(tǒng)星歷計(jì)算方法
- 基于分類模型的合同費(fèi)用計(jì)算方法、裝置及計(jì)算機(jī)設(shè)備
- 一種超越函數(shù)計(jì)算方法及裝置
- 計(jì)算方法決定系統(tǒng)、計(jì)算方法決定方法、記錄介質(zhì)
- 一種混合湍流計(jì)算方法
- 一種基于芯片檢測(cè)的HRD評(píng)分計(jì)算方法





