[發(fā)明專利]文章重復(fù)度的檢測方法、裝置及計算設(shè)備有效
| 申請?zhí)枺?/td> | 201710002050.7 | 申請日: | 2017-01-03 |
| 公開(公告)號: | CN106649871B | 公開(公告)日: | 2019-10-25 |
| 發(fā)明(設(shè)計)人: | 潘慶翔;黃海澄 | 申請(專利權(quán))人: | 廣州愛九游信息技術(shù)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953;G06F16/9535;G06F17/27;G06K9/62 |
| 代理公司: | 北京展翼知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 510665 廣東省廣州市天河區(qū)黃埔大*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文章 重復(fù) 檢測 方法 裝置 計算 設(shè)備 | ||
1.一種計算設(shè)備,包括:
網(wǎng)絡(luò)接口,所述網(wǎng)絡(luò)接口使得所述計算設(shè)備能夠經(jīng)由一個或多個網(wǎng)絡(luò)通信;
存儲器,通過所述網(wǎng)絡(luò)接口加載的網(wǎng)絡(luò)資源緩存在所述存儲器中;以及
處理器,與所述網(wǎng)絡(luò)接口和所述存儲器相連接,所述處理器配置為執(zhí)行以下操作:
對待檢測文章進行切分,以得到多個切片;
對所述多個切片中至少部分切片執(zhí)行搜索操作,以得到對應(yīng)于所述部分切片中每個切片的多個搜索結(jié)果;
計算每個所述切片和與其對應(yīng)的多個搜索結(jié)果中各個所述搜索結(jié)果之間的相似度;
計算所述相似度大于第一預(yù)定閾值的個數(shù)占總的相似度的個數(shù)的比值,將所述比值作為所述待檢測文章的重復(fù)度,所述重復(fù)度用于表征所述待檢測文章在互聯(lián)網(wǎng)上的傳播度。
2.一種文章重復(fù)度的檢測裝置,包括:
切分單元,用于對待檢測文章進行切分,以得到多個切片;
搜索單元,用于對所述多個切片中至少部分切片執(zhí)行搜索操作,以得到對應(yīng)于所述部分切片中每個切片的多個搜索結(jié)果;
相似度計算單元,用于計算每個所述切片和與其對應(yīng)的多個搜索結(jié)果中各個所述搜索結(jié)果之間的相似度;
重復(fù)度確定單元,用于計算所述相似度大于第一預(yù)定閾值的個數(shù)占總的相似度的個數(shù)的比值,所述比值為所述待檢測文章的重復(fù)度,所述重復(fù)度用于表征所述待檢測文章在互聯(lián)網(wǎng)上的傳播度。
3.根據(jù)權(quán)利要求2所述的檢測裝置,其中,所述相似度計算單元包括:
第一分詞模塊,用于對所述切片進行分詞,以得到第一分詞結(jié)果;
第二分詞模塊,用于對所述搜索結(jié)果中的匹配內(nèi)容進行分詞,以得到第二分詞結(jié)果;
詞頻計算模塊,用于分別計算所述第一分詞結(jié)果和所述第二分詞結(jié)果的詞頻,以得到第一詞頻向量和第二詞頻向量;
相似度計算模塊,用于根據(jù)余弦相似性計算所述第一詞頻向量和所述第二詞頻向量的相似度,作為所述切片和與其對應(yīng)的搜索結(jié)果之間的相似度。
4.根據(jù)權(quán)利要求2所述的檢測裝置,其中,所述搜索單元使用搜索引擎分別對所述多個切片中至少部分切片在數(shù)據(jù)庫中進行搜索。
5.根據(jù)權(quán)利要求2所述的檢測裝置,其中,
在所述多個切片的數(shù)量大于第二預(yù)定閾值時,所述搜索單元對所述多個切片中部分切片執(zhí)行搜索操作,
在所述多個切片的數(shù)量小于第二預(yù)定閾值時,所述搜索單元對所述多個切片中每個切片執(zhí)行搜索操作。
6.根據(jù)權(quán)利要求2所述的檢測裝置,還包括:
關(guān)鍵詞提取單元,用于提取所述待檢測文章中的關(guān)鍵詞;
權(quán)重賦予單元,用于根據(jù)所述關(guān)鍵詞在所述切片中的出現(xiàn)情況,為所述至少部分切片中的每個切片賦予權(quán)重。
7.一種文章重復(fù)度的檢測方法,包括:
對待檢測文章進行切分,以得到多個切片;
對所述多個切片中至少部分切片執(zhí)行搜索操作,以得到對應(yīng)于所述部分切片中每個切片的多個搜索結(jié)果;
計算每個所述切片和與其對應(yīng)的多個搜索結(jié)果中各個所述搜索結(jié)果之間的相似度;
計算所述相似度大于第一預(yù)定閾值的個數(shù)占總的相似度的個數(shù)的比值,所述比值為所述待檢測文章的重復(fù)度,所述重復(fù)度用于表征所述待檢測文章在互聯(lián)網(wǎng)上的傳播度。
8.根據(jù)權(quán)利要求7所述的檢測方法,其中,所述計算每個所述切片和與其對應(yīng)的搜索結(jié)果之間的相似度的步驟包括:
對所述切片進行分詞,以得到第一分詞結(jié)果;
對所述搜索結(jié)果中的匹配內(nèi)容進行分詞,以得到第二分詞結(jié)果;
分別計算所述第一分詞結(jié)果和所述第二分詞結(jié)果的詞頻,以得到第一詞頻向量和第二詞頻向量;
根據(jù)余弦相似性計算所述第一詞頻向量和所述第二詞頻向量的相似度,作為所述切片和與其對應(yīng)的搜索結(jié)果之間的相似度。
9.根據(jù)權(quán)利要求7所述的檢測方法,其中,對所述多個切片中至少部分切片執(zhí)行搜索操作的步驟包括:
使用搜索引擎分別對所述多個切片中至少部分切片在數(shù)據(jù)庫中進行搜索。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州愛九游信息技術(shù)有限公司,未經(jīng)廣州愛九游信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710002050.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種管式抽稠泵
- 下一篇:一種適用于低溫介質(zhì)的雙作用活塞泵





