[發明專利]一種基于軟分類模型的新聞情感和重要性分類方法在審
| 申請號: | 201810440970.1 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN108595704A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 馮翱 | 申請(專利權)人: | 成都信息工程大學;成都智睿通拓科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類標簽 主題模型 分類器 文檔 重要性分類 新聞數據 軟分類 標簽 采集 標簽概率 典型樣本 概率分布 人工標注 文檔內容 新聞文本 訓練數據 主題分布 標注 分類 概率 | ||
本發明涉及一種基于軟分類模型的新聞情感和重要性分類方法,其包括以下步驟:采集新聞數據;使用采集的新聞文本集全量訓練LDA主題模型,得到給定主題數的主題模型;選定需要建立分類器的一定數量主題,分別提取每個主題的典型樣本,進行人工標注;對于選定的每個主題,使用標注的訓練數據建立該主題的分類器;對于新進新聞數據,使用主題模型對文檔D進行主題劃分,得到在所有主題t中的概率分布P(t|D);使用分類器對文檔內容進行分類,得到分類標簽或標簽概率;根據文檔的主題分布和每個主題中的分類標簽,計算該文檔的分類標簽,取所有標簽中分值/概率最高的作為其情感和重要性標簽。
技術領域
本發明涉及數據處理領域,尤其涉及一種基于軟分類模型的新聞情感和重要性分類方法。
背景技術
在大數據時代,新聞生成的速度遠超個人能夠處理的速度,為了保證有效的信息攝取,對于原始新聞進行適當的特征提取和篩選是在很多場景下都必需的步驟。在選取個人感興趣的新聞,或者用數學模型進行量化處理的時候,新聞的情感傾向(正面/負面/中性)和重要性(對于新聞主體影響高/中/低)是其重要的屬性。如何自動地對于原始文本新聞進行分類,減少人工標注的工作量,是實時高效新聞處理的前提。
情感傾向和重要性兩個屬性有一定關聯關系,通常是在正面和負面傾向的新聞中需要重要性標簽,從而組合形成一個單維度的分類,將兩個(通常是)三分類問題轉化為一個多分類問題,即正面高/正面中/正面低/中性/負面低/負面中/負面高。不管是哪種情況,都可以看作是對新聞文本的一個分類問題,使用機器學習中的通用分類算法解決。然而對于新聞,尤其是特定領域的新聞來說,通用的基于情感詞表的方法在很多領域中不適用,因為某些新聞內容的情感傾向不用通用的情感詞匯加以表達,而是由和內容直接相關的語義特征予以表達。以財經新聞領域的財務報表類新聞為例,新聞中通常只出現若干數字,以及“相比去年上升”、“同比減少”等等字樣,即使由人工加以判別,也只能根據該領域規則確定其情感傾向和重要性,不能簡單地提取關鍵詞特征加以判別。
現有的關于新聞分類的技術方案包括:
1、不考慮新聞特征,與其他情感分類問題類似,使用通用情感詞表構建分類器。該方案對于大量不含明顯情感詞的新聞,不能進行正確的情感和重要性判別。
2、采集大量待分類領域新聞,由人工基于預先設定的規則,對于部分數據進行人工標注,并使用標注數據訓練單一分類器,用分類器對未標注數據進行劃分。由于不同內容的新聞具有不同的情感和重要性劃分標注,將所有類別的訓練數據合并進行處理,訓練得到的通用分類器對于大多數類別的分類效果都不夠好。
3、考慮到領域新聞中的不同類型具有不同的判別標準,在數據采集時就有意識地分別采集各種不同內容的新聞,分別進行標注,然后訓練每類不同的分類器,之后根據未標注新聞的內容,首先將其劃分到最接近的類型,然后再用該類的分類器對其進行劃分。該方案存在以下不足:在多數情況下,領域新聞的類型劃分可以很細,直接導致的結果是在很多類型無法取到足夠的樣本數據。在大量類別中分別標注一定數量的訓練數據需要消耗很大的工作量,而在某類訓練數據不足的前提下,很難得到一個高精度的分類器。同時,對于待處理新聞的類型劃分同樣需要運行一個分類器,具有一定錯分的可能,而錯分到其他類別的新聞很難得到正確的處理結果。
發明內容
針對現有技術之不足,本發明提出了一種基于軟分類模型的新聞情感和重要性分類方法,其包括以下步驟:
步驟1:采集新聞數據,所述新聞數據包含各個領域的多樣化的新聞內容,從而覆蓋不同類型的內容;
步驟2:使用步驟1采集的新聞文本集全量訓練LDA主題模型,得到給定主題數的主題模型;
步驟3:選定需要建立分類器的一定數量主題,分別提取每個主題的典型樣本,進行人工標注;
步驟4:對于步驟3中選定的每個主題,使用標注的訓練數據建立該主題的分類器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學;成都智睿通拓科技有限公司,未經成都信息工程大學;成都智睿通拓科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810440970.1/2.html,轉載請聲明來源鉆瓜專利網。





