[發明專利]一種融合命名實體識別的高技術文本分類方法及系統有效
| 申請號: | 202011013637.6 | 申請日: | 2020-09-24 |
| 公開(公告)號: | CN112163089B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 王浩伊;楊軍;錢寶生;鐘晨;涂鑫 | 申請(專利權)人: | 中國電子科技集團公司第十五研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06N3/0442 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 崔玥 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 命名 實體 識別 高技術 文本 分類 方法 系統 | ||
本發明涉及一種融合命名實體識別的軍事高技術文本分類方法及系統,包括:確定文本向量,輸入至BiLSTM網絡結構中,得到文本序列的隱向量;對原始文本分類模型進行訓練,計算當前文本在各個類別中所占比例;對原始命名實體識別模型進行訓練,得到訓練后的命名實體識別模型;基于訓練好后的命名實體識別模型抽取分類后的文本中的專業術語,得到術語列表L;確定L中的每個元素在各類別詞典中分別出現的頻率和,并轉換為占比;基于當前文本在各個類別中所占比例融合文本中出現的專業術語在詞典中的占比通過權重進行分類。本發明中的上述方法能夠一定程度上解決專業術語特征表示欠缺對分類結果所帶來的影響,集成兩種算法能夠有效提升文本分類的準確性。
技術領域
本發明涉及文本分類領域,特別是涉及一種融合命名實體識別的高技術文本分類方法及系統。
背景技術
隨著網絡資源在當今社會中越來越龐大,如何能在海量級的文本信息中更有效率地挖掘出我們所需要的信息資源變得愈發重要。文本分類作為自然語言處理(naturallanguage?processing)的一個分支解決了實際應用中的很多問題,它能夠幫助人們更好地管理信息資源,更有效率地獲取目標信息。
目前,對于文本分類任務,機器學習和深度學習方法被廣泛采納。在傳統的機器學習方法中,文本分類可采用樸素貝葉斯、支持向量機、K近鄰、Rocchio等。在深度學習方法中,卷積神經網絡(CNN)、雙向長短期記憶網絡模型(BiLSTM)等神經網絡近些年同樣在文本分類任務中同樣取得了不錯的效果。
現階段,文本分類任務目前采用的一種主流方法為BERT中文預訓練模型加入自己的訓練數據進行fine-tune操作,后續連接BiLSTM、CNN等神經網絡的模型結構,相較于其他方法取得了很好的效果。但是由于經BERT所訓練后的預訓練模型是通用“語言理解”模型,對于某個特定領域的文本闡述方法或者專業術語并沒有充分學習到,所以在解決該領域的文本分類任務上的準確率往往受限。谷歌訓練BERT模型使用了16個TPU集群,并花費了4天的時間,因此,現階段,如果使用自己準備的特定領域語料來訓練效果較好的BERT模型成本是非常大的。但是對于特定領域的文本來說,一些在文中出現的關鍵詞或者專業術語在分類任務中也許起著重要的作用,如何能夠融合這些詞語列表很大概率能夠提升文本分類的準確性。
發明內容
本發明的目的是提供一種融合命名實體識別的高技術文本分類方法及系統,能夠更加充分地考慮到文本內的專業術語,從而提升文本分類的準確性。
為實現上述目的,本發明提供了如下方案:
一種融合命名實體識別的高技術文本分類方法,所述分類方法包括:
步驟1:確定文本向量;
步驟2:將所述文本向量輸入至BiLSTM網絡結構中,得到文本序列的隱向量;
步驟3:獲取原始文本分類模型;
步驟4:基于所述文本序列的隱向量對所述原始文本分類模型進行訓練;
步驟5:基于訓練后的文本分類模型結合softmax函數計算當前文本在各個類別中所占比例;
步驟7:獲取命名實體識別的訓練數據;
步驟8:執行步驟1-步驟2,得到命名實體識別的訓練數據的隱向量;
步驟9:獲取原始命名實體識別模型;
步驟10:基于所述命名實體識別的訓練數據的隱向量對所述原始命名實體識別模型進行訓練,得到訓練后的命名實體識別模型;
步驟11:基于訓練好后的命名實體識別模型抽取步驟5中分類后的文本中的專業術語,得到術語列表L;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第十五研究所,未經中國電子科技集團公司第十五研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011013637.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中小型電機C型環收口工具裝置
- 下一篇:一種MIMO天線及移動通信設備





