[發明專利]新聞正文噪音去除方法及系統有效
| 申請號: | 201710162163.3 | 申請日: | 2017-03-17 |
| 公開(公告)號: | CN106897271B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 晉國盼;劉海龍;郗家貞 | 申請(專利權)人: | 北京搜狐新媒體信息技術有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F16/2457;G06F16/215;G06F16/27;G06F16/22;G06F16/335 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 趙興華;王寶筠 |
| 地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新聞 正文 噪音 去除 方法 系統 | ||
本發明提供新聞正文噪音去除方法及裝置。該方法包括:獲取預設時長內、來自同一新聞來源的多個新聞正文樣本;從所述多個新聞正文樣本中選出N個新聞正文樣本;從所述N個新聞正文樣本中查找噪聲段落作為噪音樣本,放入噪音集合;所述噪聲段落包括:n個新聞正文樣本中存在的相同段落,n大于等于3;使用噪音集合中的噪聲樣本,對目標新聞正文進行噪音去除處理;所述目標新聞正文為來自所述新聞來源的待去噪新聞正文。在本發明提供的方案中,是將預設時長內、同一新聞來源的n個新聞正文樣本中的相同段落作為噪聲樣本,并使用噪聲樣本進行噪音去除處理。在此過程中,不再需要手工配置xpath,提高了噪音去除效率。
技術領域
本發明涉及自然語言處理技術領域,特別是涉及新聞正文噪音去除方法及系統。
背景技術
門戶網站會從具有合作關系的網站及公共帳號處搜集新聞,抽取新聞正文顯示給用戶。而在新聞正文中,可能會存在與新聞主題無關的鏈接、廣告信息等噪音需要進行去除。
在實際中,每個網站或者公共帳號的噪音的位置和規則都不相同,這就需要每個網站或者公共帳號的運營人員手工配置xpath(xpath即XML路徑語言,是一種用來確定XML文檔中某部分位置的語言)。
因此,現有的噪音去除方式存在費時費力、效率低下的問題。
發明內容
本發明的目的在于提供新聞正文噪音去除方法及系統,以解決上述問題。
為實現上述目的,本發明提供了如下方案:
一方面,本申請的實施例提供一種新聞正文噪音去除方法,包括:
獲取預設時長內、來自同一新聞來源的多個新聞正文樣本;
從所述多個新聞正文樣本中選出N個新聞正文樣本;
從所述N個新聞正文樣本中查找噪聲段落,將所述噪聲段落作為噪音樣本放入噪音集合;所述噪聲段落包括:n個新聞正文樣本中存在的相同段落,n為小于N大于等于3的正整數,其中N為所述多個新聞正文樣本的數量;
使用所述噪音集合中的噪聲樣本,對目標新聞正文進行噪音去除處理,得到去除噪音的新聞正文;所述目標新聞正文為來自所述新聞來源的待去噪新聞正文。
另一方面,本發明實施例提供了一種新聞正文噪音去除系統,包括:
新聞正文樣本選取模塊,用于獲取預設時長內、來自同一新聞來源的多個新聞正文樣本,并從所述多個新聞正文樣本中選出N個新聞正文樣本;
噪聲集合更新模塊,用于從所述N個新聞正文樣本中查找噪聲段落,將所述噪聲段落作為噪音樣本放入噪音集合;所述噪聲段落包括:n個新聞正文樣本中存在的相同段落,n為小于N大于等于3的正整數,其中N為所述多個新聞正文樣本的數量;
去噪模塊,用于使用所述噪音集合中的噪聲樣本,對目標新聞正文進行噪音去除處理,得到去除噪音的新聞正文;所述目標新聞正文為來自所述新聞來源的待去噪新聞正文。
在本發明提供的方案中,是將預設時長內、同一新聞來源的n個新聞正文樣本中的相同段落作為噪聲樣本,并使用噪聲樣本對待去噪新聞正文進行噪音去除處理。在此過程中,不再需要手工配置xpath,提高了噪音去除效率,節省了時間和人力。
附圖說明
圖1a和圖1b為本發明實施例提供的新聞正文噪音去除系統示例性結構圖;
圖2a、圖2b、圖3-5為本發明實施例提供的新聞正文噪音去除方法示例性流程圖。
具體實施方式
為了方便理解本發明實施例,首先在此介紹本發明實施例描述中會引入的幾個術語:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狐新媒體信息技術有限公司,未經北京搜狐新媒體信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710162163.3/2.html,轉載請聲明來源鉆瓜專利網。





