[發(fā)明專利]一種基于標題指紋與正文指紋實現(xiàn)相同新聞聚類的方法有效
| 申請?zhí)枺?/td> | 201310538608.5 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103699567A | 公開(公告)日: | 2014-04-02 |
| 發(fā)明(設(shè)計)人: | 王放 | 申請(專利權(quán))人: | 北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產(chǎn)權(quán)代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 標題 指紋 正文 實現(xiàn) 相同 新聞 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于搜索領(lǐng)域,具體講涉及一種基于標題指紋與正文指紋實現(xiàn)相同新聞聚類的方法。?
背景技術(shù)
在資訊(或者新聞)搜索領(lǐng)域,常常出現(xiàn)鏈接地址不同,但內(nèi)容極其相近甚至完全相同的資訊數(shù)據(jù),我們稱之為重復(fù)或近似重復(fù)。這是由于多個新聞來源網(wǎng)站間互相參考、互相引用甚至直接復(fù)制的情況較為普遍。由于這些重復(fù)的資訊數(shù)據(jù)中都含有類似的內(nèi)容,所以通常都會命中用戶的檢索,而且由于內(nèi)容類似,所以相關(guān)性得分也幾乎相同,導(dǎo)致它們會集中展現(xiàn)在用戶面前。用戶看到了大量重復(fù)的數(shù)據(jù),這無疑使得用戶只能獲得少量的新信息,嚴重影響用戶體驗;同時,重復(fù)數(shù)據(jù)對于索引和搜索過程來說也消耗了大量的資源。為了解決以上問題,人們希望通過一些方法,檢測出重復(fù)的資訊,從而在索引很排序過程中將重復(fù)文檔淘汰,以減少資訊損耗,并提供更好的用戶體驗。?
目前計算重復(fù)資訊的方法有校驗和技術(shù)、N-gram指紋計算技術(shù)、Simhash指紋技術(shù)。?
校驗和技術(shù)通過對資訊內(nèi)容中各字節(jié)計算和。校驗和技術(shù)簡單易行,但只能檢測內(nèi)容完全相同的資訊文檔。同時,含有相同文本的任意文檔會得到完全相同的校驗和?
N-gram指紋計算技術(shù)從資訊內(nèi)容中以N為步長,選擇一些詞串表示文檔內(nèi)容。N-gram指紋技術(shù)從內(nèi)容中隨機取長度為N的詞串當作內(nèi)容指紋,并沒有考慮詞串在全文中的重要性。?
Simhash技術(shù)為每篇資訊計算出64bit的內(nèi)容指紋,再通過兩兩比較所有數(shù)據(jù),計算指紋差異程度,從而判斷新資訊是否與已往資訊集合中的某些篇相似。Simhash需要兩兩計算所有文檔的指紋相似度,計算量巨大,算法效率不高,不太適用于時效性要求較高的資訊搜索引擎的應(yīng)用。?
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于標題指紋與正文指紋實現(xiàn)相同新聞聚類的方法。針對校驗和、N-gram及Simhash在相同新聞聚類應(yīng)用上的不足,設(shè)計一種簡單有效的檢測重復(fù)資訊的方法來進行重復(fù)新聞聚類。?
本發(fā)明的目的是采用下述技術(shù)方案實現(xiàn)的:?
一種基于標題指紋與正文指紋實現(xiàn)相同新聞聚類的方法,其改進之處在于,所述方法包括:?
(1)標題預(yù)處理;?
(2)標題指紋計算;?
(3)正文預(yù)處理;?
(4)計算正文中切詞權(quán)重;?
(5)在指紋庫中查找;?
(6)將新資訊信息存入指紋庫;?
(7)更新指紋庫處理。?
優(yōu)選的,所述步驟(1)包括去除標題中的噪音字符,將標題中全角字符轉(zhuǎn)為半角字符。?
優(yōu)選的,所述步驟(2)包括根據(jù)標題內(nèi)容計算校驗和,取一個64bit的校驗和,當作標題指紋。?
優(yōu)選的,所述步驟(3)包括去除正文中的噪音字符,再進行歸一處理。?
優(yōu)選的,所述步驟(4)包括取權(quán)重最大的前M個作為核心詞,取權(quán)重次大的前N個作為描述詞。?
優(yōu)選的,所述步驟(4)包括分別對M個核心詞和N個描述詞排序。?
優(yōu)選的,所述步驟(5)包括?
標題指紋相同的資訊,則本篇資訊文檔與之相同;?
標題指紋不同的資訊,判斷其核心詞與描述詞是否相似。?
優(yōu)選的,所述步驟(6)包括新資訊與指紋庫中資訊均不匹配,則為新資訊分配一個內(nèi)容指紋。?
優(yōu)選的,所述步驟(7)包括新資訊與指紋庫中某一資訊類似,但二者正文并不相似則只在指紋庫中保存新資訊的標題指紋,并不保存其正文。?
與現(xiàn)有技術(shù)比,本發(fā)明的有益效果為:?
(1)采用基于本發(fā)明的重復(fù)資訊識別,算法簡明,效果顯著。經(jīng)測試,對于資訊搜?索中常見的重復(fù)情況,如直接復(fù)制、標題調(diào)整、系列新聞、內(nèi)容微調(diào)的識別率達99%以上。?
(2)算法首先對核心詞進行匹配,快速的排除了主題不相似的文章,大大提升了識別效率,在千萬級數(shù)據(jù)中識別一次的時間低于1ms。由于只保存核心詞及描述詞的基本信息,節(jié)約了存儲空間,存儲千萬級數(shù)據(jù)的歷史信息所消耗的空間低于500MB。?
附圖說明
圖1為本發(fā)明提供的一種基于標題指紋與正文指紋實現(xiàn)相同新聞聚類的方法流程圖。?
圖2為本發(fā)明提供的正文指紋實現(xiàn)相同新聞聚類的方法流程圖。?
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式作進一步的詳細說明。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司,未經(jīng)北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538608.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





