[發明專利]一種實現多源相似新聞去重的方法及系統在審
| 申請號: | 201810092951.4 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108595464A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 侯紅君;陳文濤 | 申請(專利權)人: | 深圳市富途網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似度 去重 新聞資訊 多源 整體相似度 人工參與 數據源 運營 重復 減小 去除 維度 自動化 | ||
本發明公開一種實現多源相似新聞去重的方法及系統,其方法包括:根據目標個股新聞與對比參照新聞在時間,標題以及內容維度上的相似度最大值,根據經驗值使用不同權重疊加,得到目標新聞的相似度參數,將相似度參數與相似度閾值進行對比,對該相似新聞進行去重判斷與處理,從而達到實現可以在不需要人工參與的情況下,基于新聞的標題、內容的整體相似度識別不同數據源中的重復新聞,并達到去除重復新聞和新聞資訊運營自動化的目的,可以大大減小新聞資訊運營的人工強度。
技術領域
本發明涉及多源相似新聞去重的技術領域,尤其涉及一種實現多源相似新聞去重的方法及系統。
背景技術
現有的相似新聞去重的技術方案主要是基于分詞得到一篇文章的所有分詞列表以及分詞權重,將一篇新的資訊計算得出的分詞列表與已有資訊的分詞表進行對比,分詞表及分詞的權重一致性超過一定閾值則認為是重復新聞。
目前,在相似新聞去重方面,有人工運營相似新聞去重技術方案,有使用基于中文分詞識別一篇新聞并達到相似新聞去重的目的,前者運營成本高昂,并且有遺漏風險,后者使用分詞的方案,對于使用關鍵字查找新聞效果佳,用于相似新聞去重方案則可能誤傷相同主題的新聞。
發明內容
本發明提供一種實現多源相似新聞去重的方法及系統,用以解決現有技術中存在的運營成本高昂,有遺漏風險,相似新聞去重可能誤傷相同主題的新聞的技術問題。
為解決上述技術問題,本發明提供一種實現多源相似新聞去重的方法,包括:
檢測目標個股新聞與對比新聞的主題的相似度的最大值A1;
檢測到目標個股新聞與對比新聞的主題的相似度的最大值A1大于0.78時,則判斷所述目標個股新聞與所述對比新聞為相似新聞;
對所述相似新聞進行去重處理。
其中,所述實現多源相似新聞去重的方法,還包括:
檢測目標個股新聞與對比新聞的內容的相似度的最大值B1;
檢測到目標個股新聞與對比新聞的內容的相似度的最大值B1大于0.79時,則判斷所述目標個股新聞與所述對比新聞為相似新聞;
對所述相似新聞進行去重處理。
其中,所述實現多源相似新聞去重的方法,還包括:
檢測目標個股新聞與對比新聞的主題的相似度的最大值A1,和檢測目標個股新聞與對比新聞的內容的相似度的最大值B1;
檢測到所述A1和所述B1相加的和值C1大于1.31時,則判斷所述目標個股新聞與所述對比新聞為相似新聞;
對所述相似新聞進行去重處理。
其中,所述在檢測目標個股新聞與對比新聞的主題的相似度的最大值A1之前,還包括:
選取所有對比新聞。
其中,所述在選取所有對比新聞之前,還包括:
選取目標個股新聞。
為解決上述技術問題,本發明還提供一種實現多源相似新聞去重的系統,包括:
檢測模塊、判斷模塊、所述去重模塊;
所述檢測模塊,用于檢測目標個股新聞與對比新聞的主題的相似度的最大值A1;
所述判斷模塊,用于根據所述檢測模塊檢測到目標個股新聞與對比新聞的主題的相似度的最大值A1大于0.78時,判斷所述目標個股新聞與所述對比新聞為相似新聞;
所述去重模塊,用于對所述判斷模塊所判斷的相似新聞進行去重處理。
其中,所述實現多源相似新聞去重的系統,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市富途網絡科技有限公司,未經深圳市富途網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092951.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虛擬三維沉浸式顯示系統及方法
- 下一篇:數據處理方法及裝置





