[發明專利]一種海量相似新聞查重甄選方法、系統及裝置在審
| 申請號: | 201711350335.6 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108280127A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 張毅 | 申請(專利權)人: | 廣州艾媒數聚信息咨詢股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 胡輝 |
| 地址: | 510006 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 系統及裝置 新聞文章 重結果 工作效率 文章結構 新聞媒體 新聞源 發送 應用 保證 | ||
1.一種海量相似新聞查重甄選方法,其特征在于,包括以下步驟:
從各個新聞源中獲取新聞文章;
對獲取的新聞文章進行快速查重處理和關鍵詞查重處理,得到查重結果;
將查重結果發送至編輯進行處理。
2.根據權利要求1所述的一種海量相似新聞查重甄選方法,其特征在于:所述的快速查重處理,這一步驟具體包括:
對新聞文章進行分詞,得到特征單詞;
將得到的特征單詞進行去掉噪音詞處理后,根據預設的規則對每個詞設置對應的權重;
對特征單詞進行哈希值計算,得到每個特征單詞對應的哈希值;
根據各特征單詞對應的哈希值和權值,進行加權計算得到各特征單詞對應的加權數字串;
將各特征單詞的加權數字串進行累加,得到該新聞文章對應的序列值;
對該新聞文章對應的序列值進行降維處理,得到該新聞文章對應的文章簽名;
根據該新聞文章的文章簽名和文章長度,查找與該新聞文章重復的新聞文章,得到查重結果。
3.根據權利要求1所述的一種海量相似新聞查重甄選方法,其特征在于:所述的關鍵詞查重處理,這一步驟具體包括:
對獲取的新聞文章中的文章內容和文章標題進行結巴分詞處理,得到分詞結果;
統計分詞結果中各個詞的詞頻,并對詞頻最高的N個詞進行記錄為該新聞文章的特征詞并保存至數據庫中,其中N為預設值;
對需要查重的新聞文章的特征詞與數據庫中各新聞文章的特征詞進行重合度檢測,將重合度超過預設重合閾值的新聞文章認為重復,得出查重結果。
4.根據權利要求1所述的一種海量相似新聞查重甄選方法,其特征在于:還包括步驟:
當進行編輯時,自動對編輯中的新聞文章進行鎖定,并將編輯完成的新聞文章變成手動發布狀態;
定時從數據庫中獲取手動發布狀態的新聞文章或歷史已發布的新聞文章,并對其執行關鍵詞查重處理。
5.一種海量相似新聞查重甄選系統,其特征在于,包括:
獲取單元,用于從各個新聞源中獲取新聞文章;
查重單元,用于對獲取的新聞文章進行快速查重處理和關鍵詞查重處理,得到查重結果;
結果發送單元,用于將查重結果發送至編輯進行處理。
6.根據權利要求5所述的一種海量相似新聞查重甄選系統,其特征在于:所述查重單元中的快速查重處理,具體包括:
快速分詞單元用于,用于對新聞文章進行分詞,得到特征單詞;
單詞處理單元,用于將得到的特征單詞進行去掉噪音詞處理后,根據預設的規則對每個詞設置對應的權重;
哈希計算單元,用于對特征單詞進行哈希值計算,得到每個特征單詞對應的哈希值;
加權計算單元,用于根據各特征單詞對應的哈希值和權值,進行加權計算得到各特征單詞對應的加權數字串;
累加單元,用于將各特征單詞的加權數字串進行累加,得到該新聞文章對應的序列值;
降維單元,用于對該新聞文章對應的序列值進行降維處理,得到該新聞文章對應的文章簽名;
簽名查找單元,用于根據該新聞文章的文章簽名和文章長度,查找與該新聞文章重復的新聞文章,得到查重結果。
7.根據權利要求5所述的一種海量相似新聞查重甄選系統,其特征在于:所述查重單元中的關鍵詞查重處理,具體包括:
對獲取的新聞文章中的文章內容和文章標題進行結巴分詞處理,得到分詞結果;
統計分詞結果中各個詞的詞頻,并對詞頻最高的N個詞進行記錄為該新聞文章的特征詞并保存至數據庫中,其中N為預設值;
對需要查重的新聞文章的特征詞與數據庫中各新聞文章的特征詞進行重合度檢測,將重合度超過預設重合閾值的新聞文章認為重復,得出查重結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州艾媒數聚信息咨詢股份有限公司,未經廣州艾媒數聚信息咨詢股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711350335.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大數據分析處理方法
- 下一篇:一種展示個性化頁面的方法及設備





