[發明專利]一種基于軟分類模型的新聞情感和重要性分類方法在審
| 申請號: | 201810440970.1 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN108595704A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 馮翱 | 申請(專利權)人: | 成都信息工程大學;成都智睿通拓科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類標簽 主題模型 分類器 文檔 重要性分類 新聞數據 軟分類 標簽 采集 標簽概率 典型樣本 概率分布 人工標注 文檔內容 新聞文本 訓練數據 主題分布 標注 分類 概率 | ||
1.一種基于軟分類模型的新聞情感和重要性分類方法,其特征在于,包括以下步驟:
步驟1:采集新聞數據,所述新聞數據包含各個領域的多樣化的新聞內容,從而覆蓋不同類型的內容;
步驟2:使用步驟1采集的新聞文本集全量訓練LDA主題模型,得到給定主題數的主題模型;
步驟3:選定需要建立分類器的一定數量主題,分別提取每個主題的典型樣本,進行人工標注;
步驟4:對于步驟3中選定的每個主題,使用標注的訓練數據建立該主題的分類器;
步驟5:對于新進新聞數據,使用步驟2中得到的主題模型對文檔D進行主題劃分,得到在所有主題t中的概率分布P(t|D);
步驟6:對于文檔中涉及到的所有主題ti,如果是建立了分類器的,均使用對應的分類器對文檔內容進行分類,從而得到對應的分類標簽l或標簽概率P(l|D,ti);
步驟7:根據文檔的主題分布和每個主題中得到的分類標簽,計算該文檔的分類標簽:
取所有標簽中分值/概率最高的作為其情感和重要性標簽。
2.如權利要求1所述的分類方法,其特征在于,在步驟2中,所述主題模型的給定主題數范圍為50至200。
3.如權利要求1所述的分類方法,其特征在于,在步驟3中,對于訓練得到主題中覆蓋率最高的前10至50個主題,分別取該主題占比50%以上的文檔進行人工標注。
4.如權利要求1所述的分類方法,其特征在于,在步驟3中,對于訓練得到主題中累計覆蓋率占所有文檔95%以上的主題,分別取該主題占比50%以上的文檔進行人工標注。
5.如權利要求1至4之一所述的分類方法,其特征在于,在步驟4中,所述分類器采用的分類算法包括支持向量機、貝葉斯模型、決策樹和神經網絡算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學;成都智睿通拓科技有限公司,未經成都信息工程大學;成都智睿通拓科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810440970.1/1.html,轉載請聲明來源鉆瓜專利網。





