[發明專利]一種海量相似新聞查重甄選方法、系統及裝置在審

申請號：	201711350335.6	申請日：	2017-12-15
公開（公告）號：	CN108280127A	公開（公告）日：	2018-07-13
發明（設計）人：	張毅	申請（專利權）人：	廣州艾媒數聚信息咨詢股份有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	廣州嘉權專利商標事務所有限公司 44205	代理人：	胡輝
地址：	510006 廣東省廣州***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	系統及裝置新聞文章重結果工作效率文章結構新聞媒體新聞源發送應用保證
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種海量相似新聞查重甄選方法、系統及裝置，方法包括：從各個新聞源中獲取新聞文章；對獲取的新聞文章進行快速查重處理和關鍵詞查重處理，得到查重結果；將查重結果發送至編輯進行處理。本發明通過快速查重和關鍵詞查重結合進行新聞查重，從而在文章結構及文章中心思想兩個層面都保證了查重的效果，在提高了查重的準確性的同時，也大大提升了工作效率，有效滿足了新聞媒體行業查重的需求。本發明可廣泛應用于新聞領域中。

技術領域

本發明涉及文本處理技術領域，尤其涉及一種海量相似新聞查重甄選方法、系統及裝置。

背景技術

國內比較著名的查重系統主要是用于學術上的查重，主要為畢業生的論文查重。典型的查重技術規則大致為：先根據文章結構對文章進行小段拆分，再以N個字為單元進行匹配，并設置了一定的閾值百分比，與系統中大量論文、期刊、專利等數據庫進行比對，從而得出查重結果。這些系統在進行學術文章查重相當有效，多年沿用也簡直證明了它是稱職的系統。但網上也存在相當多的“攻略”去規避這種查重方法(最常見的方法為改頭換尾，改寫)，而且這種查重系統的特性也滿足不了新聞媒體對于查重的需求。

不管是傳統媒體還是新媒體，都對查重有著強烈而又特殊的需求：一篇新抓取過來的文章或新投過來的稿件，如何判定是否和已有文章重復呢？這種新聞文章的“重復”還和論文的重復不是一回事，首先新聞遠比論文的篇幅要短，然后新聞的核心無非是時間+地點+人物+事情，圍繞這個中心思想進行文章撰寫。本質都是一件事，但是寫法大相徑庭，用論文匹配的方式去判定是無法確認是同一篇文章的。

現在多數傳統媒體已擁有自己的數據庫，最通常而簡單的查重和搜索方式是在數據庫對標題執行like相關字段進行查詢，能把帶對應關鍵詞的標題的文章搜索出來。然而這種方法存在一定弊端，如：在標題黨橫行的今天，僅通過標題特定關鍵詞進行搜索，效果越來越不顯著；待轉型到互聯網+的傳統媒體以及新媒體，稿件的來源不再限于記者編輯，而是爬蟲抓取回來的海量文章，在性能上也越來越捉襟見肘。

發明內容

為了解決上述技術問題，本發明的目的是提供一種高效準確的海量相似新聞查重甄選方法、系統及裝置。

本發明所采取的技術方案是：

一種海量相似新聞查重甄選方法，包括以下步驟：

從各個新聞源中獲取新聞文章；

對獲取的新聞文章進行快速查重處理和關鍵詞查重處理，得到查重結果；

將查重結果發送至編輯進行處理。

作為所述的一種海量相似新聞查重甄選方法的進一步改進，所述的快速查重處理，這一步驟具體包括：

對新聞文章進行分詞，得到特征單詞；

將得到的特征單詞進行去掉噪音詞處理后，根據預設的規則對每個詞設置對應的權重；

對特征單詞進行哈希值計算，得到每個特征單詞對應的哈希值；

根據各特征單詞對應的哈希值和權值，進行加權計算得到各特征單詞對應的加權數字串；