[發明專利]一種新聞分類方法及裝置有效
| 申請號: | 201710845465.0 | 申請日: | 2017-09-19 |
| 公開(公告)號: | CN107577794B | 公開(公告)日: | 2019-07-05 |
| 發明(設計)人: | 房平會;徐龍 | 申請(專利權)人: | 北京神州泰岳軟件股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 分類 方法 裝置 | ||
本申請公開了一種新聞分類方法及裝置,提取樣本數據中的特征詞,計算特征詞在樣本數據中的權重值;根據權重值、特征詞、樣本數據和待分類新聞,計算待分類新聞的屬于企業新聞的概率和屬于非企業新聞的概率;根據待分類新聞的屬于企業新聞的概率和屬于非企業新聞的概率,判斷待分類新聞是企業新聞還是非企業新聞。本申請提供的新聞分類方法及裝置,可以高準確率地將新聞分類,滿足用戶對于新聞準確分類的要求,為用戶制定決策與規劃提供更多參考。
技術領域
本申請涉及文本分類技術領域,特別涉及一種新聞分類方法及裝置。
背景技術
新聞,也叫消息,是通過報紙、電臺、廣播、電視臺等媒體途徑所傳播信息的一種稱謂,是傳播信息的一種文體。在大數據時代,各種各樣的新聞文本不斷增多。很多用戶需要基于新聞文本獲得有利于商業模式的決策和決定。但是大量新聞又會對用戶真正需要的信息進行干擾,使得用戶建立決策的過程效率低和誤差大。采用新聞分類的方法從海量的信息中發現有用的新聞,可以幫助用戶快速的收集信息及做出決策。
新聞分類可以按照一定的分類體系或者分類標準進行分類。新聞的種類有時政新聞、娛樂新聞、體育新聞等等。新聞的分類方法也有很多,通常可以根據新聞文本中的某個詞來判斷該新聞屬于哪個類別,也可以根據這個詞在新聞文本中出現的頻率對該新聞進行分類。目前各大用戶使用新聞分類的方法獲取對自己的企業有用的新聞,進而根據該有用的新聞為自己企業的發展制定相應的規劃及決策。通常,企業用戶會將新聞分為特定的種類,不同于娛樂新聞和時政新聞等,并通過現有的新聞分類方法區分企業用戶的新聞屬于何種類型的新聞,分好類別之后,企業用戶就可以根據這些不同類別新聞的特點獲取有價值的信息。
但是,這些方法雖然可以將新聞分類,但卻無法保證分類的準確率。如果用戶要求特定類型的更高準確率的新聞分類,例如高準確率的企業新聞分類與非企業新聞分類,這些新聞分類方法就無法達到要求,并且平均準確率在90%以下。可見,現有目前常用的新聞分類方法不能滿足用戶的高準確率新聞分類的要求。
發明內容
本申請的目的在于提供一種新聞分類方法及裝置,以解決現有技術中的新聞分類方法不能滿足用戶的高準確率新聞分類的問題。
一方面,本申請提供一種新聞分類方法,包括:
獲取樣本數據,所述樣本數據包括若干條企業新聞和非企業新聞;
提取所述樣本數據中的特征詞,計算所述特征詞在所述樣本數據中的權重值;
根據所述權重值、所述特征詞、所述樣本數據和待分類新聞,計算所述待分類新聞的屬于企業新聞的概率和屬于非企業新聞的概率;
根據所述待分類新聞的屬于企業新聞的概率和屬于非企業新聞的概率,判斷所述待分類新聞的類型,所述類型包括企業新聞和非企業新聞。
可選的,所述提取所述樣本數據中的特征詞,計算所述特征詞在所述樣本數據中的權重值包括:
對所述樣本數據分詞,得到若干個單詞;
計算所述單詞與所述企業新聞的開方值;
按照所述開方值降序的順序,提取預設數量的所述單詞,得到特征詞;
根據所述特征詞和所述樣本數據,計算所述特征詞在所述樣本數據中的詞頻和包含所述特征詞的新聞在所述樣本數據中的逆向文件頻率;
根據所述詞頻和所述逆向文件頻率,計算所述特征詞在所述樣本數據中的權重值。
可選的,所述根據所述權重值、所述特征詞、所述樣本數據和待分類新聞,計算所述待分類新聞的屬于企業新聞的概率和屬于非企業新聞的概率包括:
獲取所述特征詞在所述待分類新聞中的出現類型、所述特征詞在所述樣本數據中的出現次數,以及,計算所述樣本數據中各類型新聞所占的概率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳軟件股份有限公司,未經北京神州泰岳軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710845465.0/2.html,轉載請聲明來源鉆瓜專利網。





