[發明專利]建立文本分類模型以及文本分類的方法、裝置有效
| 申請號: | 201710882685.0 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107908635B | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 夏源;周景博;董維山;范偉 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 文本 分類 模型 以及 方法 裝置 | ||
本發明提供一種建立文本分類模型與文本分類的方法、裝置,建立方法包括:獲取訓練樣本;基于實體詞典對文本進行切詞后獲取對應的向量矩陣;利用文本的向量矩陣以及文本的分類,訓練第一分類模型和第二分類模型;在訓練過程中,利用第一分類模型與第二分類模型的損失函數得到文本分類模型的損失函數,并利用文本分類模型的損失函數對第一和第二分類模型調整參數,得到由第一和第二分類模型構成的文本分類模型。文本分類的方法包括:獲取待分類的文本;基于實體詞典對文本進行切詞后獲取文本對應的向量矩陣;將向量矩陣輸入文本分類模型,根據文本分類模型的輸出,得到該文本的分類結果。通過本發明所提供的技術方案,能夠提高文本分類的效果。
【技術領域】
本發明涉及自然語言處理技術,尤其涉及一種建立文本分類模型以及文本分類的方法、裝置。
【背景技術】
在互聯網時代,文本自動分類的方法應用于互聯網領域的各個方面,包括網頁分類、微博情感分析、用戶評論挖掘等。目前,文本分類在廣泛領域的精度已經達到很高的程度,但是在垂直領域的分類仍具有一定的缺陷,例如醫療領域、法律領域、科技領域等。現有技術通常采用單一模型對文本進行分類,已有的模型各有優缺點,例如對短文本分類效果不好、魯棒性和泛化性能不佳,等等。因此將單一模型應用于垂直領域的文本分類往往無法達到很好的分類效果。
【發明內容】
有鑒于此,本發明提供了一種建立文本分類模型以及文本分類的方法和裝置,用于提高文本分類的效果。
本發明為解決技術問題所采用的技術方案是提供一種建立文本分類模型的方法,所述方法包括:獲取訓練樣本,所述訓練樣本包括:文本及其對應的分類;基于實體詞典對所述文本進行切詞后,獲取所述文本對應的向量矩陣;利用所述文本對應的向量矩陣以及所述文本的分類,分別訓練第一分類模型和第二分類模型;在所述訓練過程中,利用第一分類模型的損失函數以及所述第二分類模型的損失函數得到文本分類模型的損失函數,并利用文本分類模型的損失函數對所述第一分類模型和第二分類模型進行參數調整,得到由第一分類模型和第二分類模型構成的文本分類模型。
根據本發明一優選實施例,所述文本分類模型用于醫療文本的分類。
根據本發明一優選實施例,所述第一分類模型和第二分類模型的訓練目標為最小化所述文本分類模型的損失函數。
根據本發明一優選實施例,所述第一分類模型為基于概率的分類模型.
根據本發明一優選實施例,所述第一分類模型包括基于雙向長度記憶單元和卷積神經網絡組合的分類模型。
根據本發明一優選實施例,訓練第一分類模型包括:將所述文本作為輸入,所述文本的分類作為輸出,訓練第一分類模型。
根據本發明一優選實施例,所述第二分類模型為基于相似度的分類模型。
根據本發明一優選實施例,所述第二分類模型包括基于深度神經網絡的分類模型。
根據本發明一優選實施例,訓練第二分類模型包括:將所述文本以及與該文本的分類對應的專家數據作為輸入,將文本與專家數據的相似度作為輸出,訓練第二分類模型。
根據本發明一優選實施例,所述利用第一分類模型的損失函數以及所述第二分類模型的損失函數得到文本分類模型的損失函數包括:使用預設組合形式,對第一分類模型的損失函數以及第二分類模型的損失函數進行整合,得到文本分類模型的損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710882685.0/2.html,轉載請聲明來源鉆瓜專利網。





