[發明專利]面向健康輿情的文本分類方法在審
| 申請號: | 201810582880.6 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN108829810A | 公開(公告)日: | 2018-11-16 |
| 發明(設計)人: | 陳雷霆;李巧平;陳秋生;徐安;陳雅琳;劉薇;陳淑珠 | 申請(專利權)人: | 東莞迪賽軟件技術有限公司;電子科技大學廣東電子信息工程研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/08 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 李宏偉 |
| 地址: | 523000 廣東省東莞市松山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 神經網絡 特征學習 準確率 構建 健康 信息技術領域 集成學習 模型融合 外部信息 應用場景 自動學習 端到端 能力強 回歸 通用 應用 | ||
本發明公開了一種面向健康輿情的文本分類方法,涉及信息技術領域,該面向健康輿情的文本分類方法結合深度神經網絡和LightGBM兩者的優勢,利用深度神經網絡自動學習特征,將最后一層特征作為LightGBM集成學習方法的輸入,并對多個模型進行模型融合。實現端到端的特征學習,無需人工構建特征工程,且能有效提高文本分類的準確率。該面向健康輿情的文本分類方法采用端到端自動進行特征學習,無需人工構建特征工程;模型通用,無需使用其他外部信息,且與具體應用場景無關;推廣能力強,可直接應用于其它文本分類和回歸任務;提高文本分類的準確率。
技術領域
本發明涉及信息技術領域,具體來說,本發明涉及一種面向健康輿情的文本分類方法。
背景技術
文本分類問題是自然語言處理領域中一個非常重要的問題,相關研究最早可以追溯到上世紀50年代,當時是通過專家規則進行分類,甚至在80年代初一度發展到利用知識工程建立專家系統,但這種方法的天花板非常低,不僅費時費力,覆蓋的范圍和準確率都非常有限。后來伴隨著統計學習方法的發展,特別是90年代后互聯網在線文本數量增長和機器學習學科的興起,逐漸形成了一套解決大規模文本分類問題的方法,這個階段的主要套路是人工特征工程以及淺層分類模型。整個文本分類問題就拆分成了特征工程和分類器兩部分。
傳統方法主要問題的文本表示是高緯度高稀疏的,特征表達能力很弱,而且神經網絡很不擅長對此類數據的處理;此外需要人工進行特征工程,成本很高。而深度學習最初在之所以圖像和語音取得巨大成功,一個很重要的原因是圖像和語音原始數據是連續和稠密的,有局部相關性。應用深度學習解決大規模文本分類問題最重要的是解決文本表示,再利用CNN/RNN等網絡結構自動獲取特征表達能力,去掉繁雜的人工特征工程,端到端的解決問題。現有的文本分類方法主要是人工構建特征工程,再利用淺層分類模型實現分類任務。文本特征工程分為文本預處理、特征提取、文本表示三個部分,最終要把文本轉換成計算機可理解的格式,并封裝足夠用于分類的信息,這個過程需要耗費大量時間和人力,且不具備很強的通用性,需要結合對特征任務的理解來構建。深度神經網絡結構具有自動獲取特征表達的能力,去掉繁雜的人工特征工程,端到端解決問題。不同的單模型在分類上具有不同的優勢,僅依靠單模型很難取得較好的分類效果,模型融合能夠利用不同單模型的優勢,進一步提升文本分類的準確率。
發明內容
本發明所要解決的技術問題是提供一種面向健康輿情的文本分類方法,利用深度神經網絡提取健康輿情文本的特征,無需人工構建特征工程,將深度神經網絡的最后一層特征做為LightGBM集成學習方法的輸入,訓練模型,用于健康輿情文本的分類任務。最后利用模型融合進一步提升文本分類的準確率。
為實現上述目的,本發明提供以下的技術方案:
該面向健康輿情的文本分類方法利用深度神經網絡TextCNN、TextRNN以及TextRCNN的對健康輿情文本數據進行特征學習,將最后一層特征做為LightGBM集成學習方法的輸入,訓練LightGBM模型,實現健康輿情文本數據的分類,最后進行模型融合,進一步提升分類的準確率,該面向健康輿情的文本分類方法具體步驟如下:
(1)數據處理:健康輿情文本數據進行處理,統一格式;
(2)數據增強:使用shuffle方法打亂詞順序,使用drop方法隨機刪除某些詞;
(3)分詞:將健康輿情文本數據重新組合成詞序列;
(4)構建詞向量和字向量:使用word2vec模型對分詞結果進行嵌入化處理得到詞向量和字向量;
(5)神經網絡提取特征:利用深度神經網絡TextCNN、TextRNN、TextRCNN的對健康輿情文本數據的詞向量和字向量進行自動特征學習,得到最后一層特征,即利用深度神經網絡全連接層前面的網絡結構提取特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東莞迪賽軟件技術有限公司;電子科技大學廣東電子信息工程研究院,未經東莞迪賽軟件技術有限公司;電子科技大學廣東電子信息工程研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810582880.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息展示方法及其終端設備、網絡設備
- 下一篇:健康輿情監測方法與系統





