[發(fā)明專利]一種實(shí)現(xiàn)多源相似新聞去重的方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810092951.4 | 申請(qǐng)日: | 2018-01-31 |
| 公開(公告)號(hào): | CN108595464A | 公開(公告)日: | 2018-09-28 |
| 發(fā)明(設(shè)計(jì))人: | 侯紅君;陳文濤 | 申請(qǐng)(專利權(quán))人: | 深圳市富途網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 相似度 去重 新聞資訊 多源 整體相似度 人工參與 數(shù)據(jù)源 運(yùn)營 重復(fù) 減小 去除 維度 自動(dòng)化 | ||
本發(fā)明公開一種實(shí)現(xiàn)多源相似新聞去重的方法及系統(tǒng),其方法包括:根據(jù)目標(biāo)個(gè)股新聞與對(duì)比參照新聞在時(shí)間,標(biāo)題以及內(nèi)容維度上的相似度最大值,根據(jù)經(jīng)驗(yàn)值使用不同權(quán)重疊加,得到目標(biāo)新聞的相似度參數(shù),將相似度參數(shù)與相似度閾值進(jìn)行對(duì)比,對(duì)該相似新聞進(jìn)行去重判斷與處理,從而達(dá)到實(shí)現(xiàn)可以在不需要人工參與的情況下,基于新聞的標(biāo)題、內(nèi)容的整體相似度識(shí)別不同數(shù)據(jù)源中的重復(fù)新聞,并達(dá)到去除重復(fù)新聞和新聞資訊運(yùn)營自動(dòng)化的目的,可以大大減小新聞資訊運(yùn)營的人工強(qiáng)度。
技術(shù)領(lǐng)域
本發(fā)明涉及多源相似新聞去重的技術(shù)領(lǐng)域,尤其涉及一種實(shí)現(xiàn)多源相似新聞去重的方法及系統(tǒng)。
背景技術(shù)
現(xiàn)有的相似新聞去重的技術(shù)方案主要是基于分詞得到一篇文章的所有分詞列表以及分詞權(quán)重,將一篇新的資訊計(jì)算得出的分詞列表與已有資訊的分詞表進(jìn)行對(duì)比,分詞表及分詞的權(quán)重一致性超過一定閾值則認(rèn)為是重復(fù)新聞。
目前,在相似新聞去重方面,有人工運(yùn)營相似新聞去重技術(shù)方案,有使用基于中文分詞識(shí)別一篇新聞并達(dá)到相似新聞去重的目的,前者運(yùn)營成本高昂,并且有遺漏風(fēng)險(xiǎn),后者使用分詞的方案,對(duì)于使用關(guān)鍵字查找新聞效果佳,用于相似新聞去重方案則可能誤傷相同主題的新聞。
發(fā)明內(nèi)容
本發(fā)明提供一種實(shí)現(xiàn)多源相似新聞去重的方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中存在的運(yùn)營成本高昂,有遺漏風(fēng)險(xiǎn),相似新聞去重可能誤傷相同主題的新聞的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明提供一種實(shí)現(xiàn)多源相似新聞去重的方法,包括:
檢測目標(biāo)個(gè)股新聞與對(duì)比新聞的主題的相似度的最大值A(chǔ)1;
檢測到目標(biāo)個(gè)股新聞與對(duì)比新聞的主題的相似度的最大值A(chǔ)1大于0.78時(shí),則判斷所述目標(biāo)個(gè)股新聞與所述對(duì)比新聞為相似新聞;
對(duì)所述相似新聞進(jìn)行去重處理。
其中,所述實(shí)現(xiàn)多源相似新聞去重的方法,還包括:
檢測目標(biāo)個(gè)股新聞與對(duì)比新聞的內(nèi)容的相似度的最大值B1;
檢測到目標(biāo)個(gè)股新聞與對(duì)比新聞的內(nèi)容的相似度的最大值B1大于0.79時(shí),則判斷所述目標(biāo)個(gè)股新聞與所述對(duì)比新聞為相似新聞;
對(duì)所述相似新聞進(jìn)行去重處理。
其中,所述實(shí)現(xiàn)多源相似新聞去重的方法,還包括:
檢測目標(biāo)個(gè)股新聞與對(duì)比新聞的主題的相似度的最大值A(chǔ)1,和檢測目標(biāo)個(gè)股新聞與對(duì)比新聞的內(nèi)容的相似度的最大值B1;
檢測到所述A1和所述B1相加的和值C1大于1.31時(shí),則判斷所述目標(biāo)個(gè)股新聞與所述對(duì)比新聞為相似新聞;
對(duì)所述相似新聞進(jìn)行去重處理。
其中,所述在檢測目標(biāo)個(gè)股新聞與對(duì)比新聞的主題的相似度的最大值A(chǔ)1之前,還包括:
選取所有對(duì)比新聞。
其中,所述在選取所有對(duì)比新聞之前,還包括:
選取目標(biāo)個(gè)股新聞。
為解決上述技術(shù)問題,本發(fā)明還提供一種實(shí)現(xiàn)多源相似新聞去重的系統(tǒng),包括:
檢測模塊、判斷模塊、所述去重模塊;
所述檢測模塊,用于檢測目標(biāo)個(gè)股新聞與對(duì)比新聞的主題的相似度的最大值A(chǔ)1;
所述判斷模塊,用于根據(jù)所述檢測模塊檢測到目標(biāo)個(gè)股新聞與對(duì)比新聞的主題的相似度的最大值A(chǔ)1大于0.78時(shí),判斷所述目標(biāo)個(gè)股新聞與所述對(duì)比新聞為相似新聞;
所述去重模塊,用于對(duì)所述判斷模塊所判斷的相似新聞進(jìn)行去重處理。
其中,所述實(shí)現(xiàn)多源相似新聞去重的系統(tǒng),還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市富途網(wǎng)絡(luò)科技有限公司,未經(jīng)深圳市富途網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810092951.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 相似度計(jì)算設(shè)備、相似度計(jì)算方法及程序
- 組織相似度圖
- 相似度檢測裝置
- 圖像處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 圖像處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 數(shù)據(jù)處理方法、數(shù)據(jù)處理設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 相似度確定方法和相似度確定裝置
- 文本相似度最佳閾值自動(dòng)尋找及優(yōu)化方法及裝置
- 一種葉輪動(dòng)平衡校正的精確去重方法
- 一種基于文件語義和系統(tǒng)實(shí)時(shí)狀態(tài)的冗余數(shù)據(jù)去重方法
- 屏蔽電機(jī)上座及其屏蔽泵
- 一種文本去重方法和裝置
- 一種數(shù)據(jù)計(jì)數(shù)去重方法、系統(tǒng)、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種去重流量提示方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于解析去重邏輯的去重平臺(tái)測試方法、裝置及計(jì)算機(jī)設(shè)備
- 一種海量互聯(lián)網(wǎng)新聞清洗系統(tǒng)
- 文本數(shù)據(jù)的去重方法、設(shè)備及存儲(chǔ)介質(zhì)
- 文本去重方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種移動(dòng)網(wǎng)絡(luò)中廣播多播業(yè)務(wù)源的管理方法
- 集裝箱港口車輛多源感知裝置
- 多源搜索
- 一種用于無線傳感器網(wǎng)絡(luò)的分布式多源定位算法
- 一種新穎的多源數(shù)據(jù)模糊聚類算法
- 電網(wǎng)自動(dòng)化系統(tǒng)多源數(shù)據(jù)接入及展示方法
- 一種面向多源激活檢測的聲電神經(jīng)成像系統(tǒng)
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 智能高安全復(fù)合密碼保險(xiǎn)箱
- 一種多源數(shù)據(jù)報(bào)表的生成方法、系統(tǒng)以及執(zhí)行方法





