[發明專利]一種海量相似新聞查重甄選方法、系統及裝置在審
| 申請號: | 201711350335.6 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108280127A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 張毅 | 申請(專利權)人: | 廣州艾媒數聚信息咨詢股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 胡輝 |
| 地址: | 510006 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 系統及裝置 新聞文章 重結果 工作效率 文章結構 新聞媒體 新聞源 發送 應用 保證 | ||
本發明公開了一種海量相似新聞查重甄選方法、系統及裝置,方法包括:從各個新聞源中獲取新聞文章;對獲取的新聞文章進行快速查重處理和關鍵詞查重處理,得到查重結果;將查重結果發送至編輯進行處理。本發明通過快速查重和關鍵詞查重結合進行新聞查重,從而在文章結構及文章中心思想兩個層面都保證了查重的效果,在提高了查重的準確性的同時,也大大提升了工作效率,有效滿足了新聞媒體行業查重的需求。本發明可廣泛應用于新聞領域中。
技術領域
本發明涉及文本處理技術領域,尤其涉及一種海量相似新聞查重甄選方法、系統及裝置。
背景技術
國內比較著名的查重系統主要是用于學術上的查重,主要為畢業生的論文查重。典型的查重技術規則大致為:先根據文章結構對文章進行小段拆分,再以N個字為單元進行匹配,并設置了一定的閾值百分比,與系統中大量論文、期刊、專利等數據庫進行比對,從而得出查重結果。這些系統在進行學術文章查重相當有效,多年沿用也簡直證明了它是稱職的系統。但網上也存在相當多的“攻略”去規避這種查重方法(最常見的方法為改頭換尾,改寫),而且這種查重系統的特性也滿足不了新聞媒體對于查重的需求。
不管是傳統媒體還是新媒體,都對查重有著強烈而又特殊的需求:一篇新抓取過來的文章或新投過來的稿件,如何判定是否和已有文章重復呢?這種新聞文章的“重復”還和論文的重復不是一回事,首先新聞遠比論文的篇幅要短,然后新聞的核心無非是時間+地點+人物+事情,圍繞這個中心思想進行文章撰寫。本質都是一件事,但是寫法大相徑庭,用論文匹配的方式去判定是無法確認是同一篇文章的。
現在多數傳統媒體已擁有自己的數據庫,最通常而簡單的查重和搜索方式是在數據庫對標題執行like相關字段進行查詢,能把帶對應關鍵詞的標題的文章搜索出來。然而這種方法存在一定弊端,如:在標題黨橫行的今天,僅通過標題特定關鍵詞進行搜索,效果越來越不顯著;待轉型到互聯網+的傳統媒體以及新媒體,稿件的來源不再限于記者編輯,而是爬蟲抓取回來的海量文章,在性能上也越來越捉襟見肘。
發明內容
為了解決上述技術問題,本發明的目的是提供一種高效準確的海量相似新聞查重甄選方法、系統及裝置。
本發明所采取的技術方案是:
一種海量相似新聞查重甄選方法,包括以下步驟:
從各個新聞源中獲取新聞文章;
對獲取的新聞文章進行快速查重處理和關鍵詞查重處理,得到查重結果;
將查重結果發送至編輯進行處理。
作為所述的一種海量相似新聞查重甄選方法的進一步改進,所述的快速查重處理,這一步驟具體包括:
對新聞文章進行分詞,得到特征單詞;
將得到的特征單詞進行去掉噪音詞處理后,根據預設的規則對每個詞設置對應的權重;
對特征單詞進行哈希值計算,得到每個特征單詞對應的哈希值;
根據各特征單詞對應的哈希值和權值,進行加權計算得到各特征單詞對應的加權數字串;
將各特征單詞的加權數字串進行累加,得到該新聞文章對應的序列值;
對該新聞文章對應的序列值進行降維處理,得到該新聞文章對應的文章簽名;
根據該新聞文章的文章簽名和文章長度,查找與該新聞文章重復的新聞文章,得到查重結果。
作為所述的一種海量相似新聞查重甄選方法的進一步改進,所述的關鍵詞查重處理,這一步驟具體包括:
對獲取的新聞文章中的文章內容和文章標題進行結巴分詞處理,得到分詞結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州艾媒數聚信息咨詢股份有限公司,未經廣州艾媒數聚信息咨詢股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711350335.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大數據分析處理方法
- 下一篇:一種展示個性化頁面的方法及設備





