[發明專利]面向健康輿情的文本分類方法在審
| 申請號: | 201810582880.6 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN108829810A | 公開(公告)日: | 2018-11-16 |
| 發明(設計)人: | 陳雷霆;李巧平;陳秋生;徐安;陳雅琳;劉薇;陳淑珠 | 申請(專利權)人: | 東莞迪賽軟件技術有限公司;電子科技大學廣東電子信息工程研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/08 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 李宏偉 |
| 地址: | 523000 廣東省東莞市松山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 神經網絡 特征學習 準確率 構建 健康 信息技術領域 集成學習 模型融合 外部信息 應用場景 自動學習 端到端 能力強 回歸 通用 應用 | ||
1.一種面向健康輿情的文本分類方法,其特征在于:所述面向健康輿情的文本分類方法利用深度神經網絡TextCNN、TextRNN以及TextRCNN的對健康輿情文本數據進行特征學習,將最后一層特征做為LightGBM集成學習方法的輸入,訓練LightGBM模型,實現健康輿情文本數據的分類,最后進行模型融合,進一步提升分類的準確率,該面向健康輿情的文本分類方法具體步驟如下:
(1)數據處理:健康輿情文本數據進行處理,統一格式;
(2)數據增強:使用shuffle方法打亂詞順序,使用drop方法隨機刪除某些詞;
(3)分詞:將健康輿情文本數據重新組合成詞序列;
(4)構建詞向量和字向量:使用word2vec模型對分詞結果進行嵌入化處理得到詞向量和字向量;
(5)神經網絡提取特征:利用深度神經網絡TextCNN、TextRNN、TextRCNN的對健康輿情文本數據的詞向量和字向量進行自動特征學習,得到最后一層特征,即利用深度神經網絡全連接層前面的網絡結構提取特征;
(6)LightGBM訓練神經網絡提取的特征數據:將深度神經網絡提取最后一層的特征數據做為LightGBM集成學習方法的輸入,對健康輿情文本數據進行分類;
(7)模型融合:將步驟(6)中訓練輸出作為LightGBM的輸入,使用stacking方法進行模型融合,Stacking方法的具體實現過程利用TextCNN-LightGBM、TextRNN-LightGBM、TextRCNN-LightGBM模型對訓練集的詞向量和字向量進行5折訓練、分類,并將訓練的模型對測試集進行分類,再將訓練集的測試結果組合成新的訓練集,測試集的測試結果取均值后組合成新的測試集,最后將新的訓練集做為LightGBM的輸入,訓練模型,對新的測試集進行分類測試。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東莞迪賽軟件技術有限公司;電子科技大學廣東電子信息工程研究院,未經東莞迪賽軟件技術有限公司;電子科技大學廣東電子信息工程研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810582880.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息展示方法及其終端設備、網絡設備
- 下一篇:健康輿情監測方法與系統





