[發明專利]文章檢測方法及裝置有效
| 申請號: | 202110531324.8 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN112989793B | 公開(公告)日: | 2021-08-06 |
| 發明(設計)人: | 楊陽 | 申請(專利權)人: | 北京創新樂知網絡技術有限公司;長沙開發者科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/194;G06F40/216;G06F16/31 |
| 代理公司: | 北京布瑞知識產權代理有限公司 11505 | 代理人: | 孟潭 |
| 地址: | 100020 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章 檢測 方法 裝置 | ||
本申請提供了一種文章檢測方法及裝置,該文章檢測方法包括:服務器將用戶設備發送的待檢測文章,以第一構建方式生成第一指紋,以第二構建方式生成第二指紋,其中,針對第一指紋設置有基于第一構建方式生成的多個第一索引記錄,針對第二指紋設置有基于第二構建方式生成的多個第二索引記錄;服務器將第一指紋和第二指紋,分別與多個第一索引記錄和多個第二索引記錄進行相似度比較,得到第一比較結果和第二比較結果;根據第一比較結果和第二比較結果確定待檢測文章的檢測結果。本申請的技術方案通過構建并檢測兩個不同的指紋,有效的減少了原創文章的誤判率,提高了相似文本的召回率。
技術領域
本申請涉及文本檢測技術領域,具體涉及一種文章檢測方法及裝置。
背景技術
隨著互聯網社區上發表博文的數量日益增多,保護原創文章的難度也越來越大。許多作者標明為原創文章實際上是對另一篇站內文章的轉載,并非為原創文章。因此,如何快速識別用戶發布的新文章是否為原創文章成為亟需解決的技術問題。
發明內容
有鑒于此,本申請實施例提供了一種文章檢測方法及裝置,能夠有效減少原創文章的誤判率。
第一方面,本申請的實施例提供了一種文章檢測方法,包括:服務器將用戶設備發送的待檢測文章,以第一構建方式生成第一指紋,以第二構建方式生成第二指紋,其中,針對第一指紋設置有基于第一構建方式生成的多個第一索引記錄,針對第二指紋設置有基于第二構建方式生成的多個第二索引記錄;服務器將第一指紋和第二指紋,分別與多個第一索引記錄和多個第二索引記錄進行相似度比較,得到第一比較結果和第二比較結果;根據第一比較結果和第二比較結果確定待檢測文章的檢測結果。
在本申請某些實施例中,以第一構建方式生成第一指紋包括:基于待檢測文章,獲取預設長度的至少一個分句;基于至少一個分句生成至少一個分句分別對應的指紋信息及權重,其中至少一個分句中每個分句的權重為分句的長度;基于至少一個分句分別對應的指紋信息及權重,合并生成待檢測文章的第一指紋;以第二構建方式生成第二指紋包括:根據待檢測文章中詞匯的關聯關系,提取至少一個關鍵詞;基于至少一個關鍵詞在待檢測文章中出現的頻率,確定至少一個關鍵詞分別對應的詞頻數,并將詞頻數設置為對應的至少一個關鍵詞的權重;基于至少一個關鍵詞及至少一個關鍵詞對應的權重,生成第二指紋。
在本申請某些實施例中,服務器將第一指紋和第二指紋,分別與多個第一索引記錄和多個第二索引記錄進行相似度比較,得到第一比較結果和第二比較結果包括:將第一指紋與多個第一索引記錄進行相似度比較,獲得第一比較結果;將第二指紋與多個第二索引記錄進行漢明距離比較,獲得第二比較結果,其中檢測結果包括原創或非原創。
在本申請某些實施例中,將第一指紋與多個第一索引記錄進行相似度比較,獲得第一比較結果包括:基于第一指紋與多個第一索引記錄,獲得第一預定數量的第一索引記錄對應的至少一篇文章,其中至少一篇文章中與第一指紋最相似的為第一篇文章;當第一指紋和第一篇文章基于第一構建方式生成的第三指紋相同部分的長度與第三指紋的長度的比值超過第一預設閾值時,生成第一索引結果;和/或當第一指紋和至少一篇文章各自對應的基于第一構建方式生成的第四指紋相同部分的長度與多個第四指紋的總長度的比值超過第二預設閾值時,生成第二索引結果;和/或當第二指紋與第一篇文章對應的基于第二構建方式生成的第五指紋的漢明距離超過第三預設閾值時,生成第三索引結果;基于第一索引結果和/或第二索引結果和/或第三索引結果,確定第一比較結果,其中第一比較結果包括第一篇文章。
在本申請某些實施例中,將第二指紋與多個第二索引記錄進行漢明距離比較,獲得第二比較結果包括:將第二指紋分為四組指紋;將四組指紋中的每一組指紋分別與多個第二索引記錄進行漢明距離比較,獲得第二預定數量的第二索引記錄對應的多篇文章;當多篇文章各自基于第二構建方式生成的指紋分別與第二指紋的漢明距離未超過第四預設閾值時,獲得第二比較結果,其中第二比較結果包括多篇文章中與第二指紋漢明距離最小的第二篇文章。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京創新樂知網絡技術有限公司;長沙開發者科技有限公司,未經北京創新樂知網絡技術有限公司;長沙開發者科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110531324.8/2.html,轉載請聲明來源鉆瓜專利網。





