[發(fā)明專利]一種實現(xiàn)多源相似新聞去重的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201810092951.4 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108595464A | 公開(公告)日: | 2018-09-28 |
| 發(fā)明(設(shè)計)人: | 侯紅君;陳文濤 | 申請(專利權(quán))人: | 深圳市富途網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 相似度 去重 新聞資訊 多源 整體相似度 人工參與 數(shù)據(jù)源 運營 重復(fù) 減小 去除 維度 自動化 | ||
1.一種實現(xiàn)多源相似新聞去重的方法,其特征在于,包括:
檢測目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1;
檢測到目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1大于0.78時,則判斷所述目標(biāo)個股新聞與所述對比新聞為相似新聞;
對所述相似新聞進行去重處理。
2.如權(quán)利要求1所述的實現(xiàn)多源相似新聞去重的方法,其特征在于,所述實現(xiàn)多源相似新聞去重的方法,還包括:
檢測目標(biāo)個股新聞與對比新聞的內(nèi)容的相似度的最大值B1;
檢測到目標(biāo)個股新聞與對比新聞的內(nèi)容的相似度的最大值B1大于0.79時,則判斷所述目標(biāo)個股新聞與所述對比新聞為相似新聞;
對所述相似新聞進行去重處理。
3.如權(quán)利要求2所述的實現(xiàn)多源相似新聞去重的方法,其特征在于,所述實現(xiàn)多源相似新聞去重的方法,還包括:
檢測目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1,和檢測目標(biāo)個股新聞與對比新聞的內(nèi)容的相似度的最大值B1;
檢測到所述A1和所述B1相加的和值C1大于1.31時,則判斷所述目標(biāo)個股新聞與所述對比新聞為相似新聞;
對所述相似新聞進行去重處理。
4.如權(quán)利要求1所述的實現(xiàn)多源相似新聞去重的方法,其特征在于,所述在檢測目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1之前,還包括:
選取所有對比新聞。
5.如權(quán)利要求4所述的實現(xiàn)多源相似新聞去重的方法,其特征在于,所述在選取所有對比新聞之前,還包括:
選取目標(biāo)個股新聞。
6.一種實現(xiàn)多源相似新聞去重的系統(tǒng),其特征在于,包括:
檢測模塊、判斷模塊、所述去重模塊;
所述檢測模塊,用于檢測目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1;
所述判斷模塊,用于根據(jù)所述檢測模塊檢測到目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1大于0.78時,判斷所述目標(biāo)個股新聞與所述對比新聞為相似新聞;
所述去重模塊,用于對所述判斷模塊所判斷的相似新聞進行去重處理。
7.如權(quán)利要求6所述的實現(xiàn)多源相似新聞去重的系統(tǒng),其特征在于,所述實現(xiàn)多源相似新聞去重的系統(tǒng),還包括:
所述檢測模塊,用于檢測目標(biāo)個股新聞與對比新聞的內(nèi)容的相似度的最大值B1;
所述判斷模塊,用于根據(jù)所述檢測模塊檢測到目標(biāo)個股新聞與對比新聞的內(nèi)容的相似度的最大值B1大于0.79時,判斷所述目標(biāo)個股新聞與所述對比新聞為相似新聞;
所述去重模塊,用于對所述判斷模塊所判斷的相似新聞進行去重處理。
8.如權(quán)利要求7所述的實現(xiàn)多源相似新聞去重的系統(tǒng),其特征在于,所述實現(xiàn)多源相似新聞去重的系統(tǒng),還包括:
所述檢測模塊,用于檢測目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1,和檢測目標(biāo)個股新聞與對比新聞的內(nèi)容的相似度的最大值B1;
所述判斷模塊,用于根據(jù)所述檢測模塊檢測到所述A1和所述B1相加的和值C1大于1.31時,判斷所述目標(biāo)個股新聞與所述對比新聞為相似新聞;
所述去重模塊,用于對所述判斷模塊所判斷的相似新聞進行去重處理。
9.如權(quán)利要求6所述的實現(xiàn)多源相似新聞去重的系統(tǒng),其特征在于,所述實現(xiàn)多源相似新聞去重的系統(tǒng),還包括選取模塊,用于在所述檢測模塊檢測目標(biāo)個股新聞與對比新聞的主題的相似度的最大值A(chǔ)1之前,選取所有對比新聞。
10.如權(quán)利要求9所述的實現(xiàn)多源相似新聞去重的系統(tǒng),其特征在于,所述選取模塊,還用于在選取所有對比新聞之前,選取目標(biāo)個股新聞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市富途網(wǎng)絡(luò)科技有限公司,未經(jīng)深圳市富途網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092951.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種葉輪動平衡校正的精確去重方法
- 一種基于文件語義和系統(tǒng)實時狀態(tài)的冗余數(shù)據(jù)去重方法
- 屏蔽電機上座及其屏蔽泵
- 一種文本去重方法和裝置
- 一種數(shù)據(jù)計數(shù)去重方法、系統(tǒng)、服務(wù)器及存儲介質(zhì)
- 一種去重流量提示方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于解析去重邏輯的去重平臺測試方法、裝置及計算機設(shè)備
- 一種海量互聯(lián)網(wǎng)新聞清洗系統(tǒng)
- 文本數(shù)據(jù)的去重方法、設(shè)備及存儲介質(zhì)
- 文本去重方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)
- 一種移動網(wǎng)絡(luò)中廣播多播業(yè)務(wù)源的管理方法
- 集裝箱港口車輛多源感知裝置
- 多源搜索
- 一種用于無線傳感器網(wǎng)絡(luò)的分布式多源定位算法
- 一種新穎的多源數(shù)據(jù)模糊聚類算法
- 電網(wǎng)自動化系統(tǒng)多源數(shù)據(jù)接入及展示方法
- 一種面向多源激活檢測的聲電神經(jīng)成像系統(tǒng)
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 智能高安全復(fù)合密碼保險箱
- 一種多源數(shù)據(jù)報表的生成方法、系統(tǒng)以及執(zhí)行方法





