[發明專利]一種短文本多標簽分類方法及裝置有效
| 申請號: | 201810769761.1 | 申請日: | 2018-07-13 |
| 公開(公告)號: | CN108920694B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 熊文燦;廖翔;周繼烈;張昊;劉銘;張駿;單培;李士勇;張瑞飛;李廣剛 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標簽 分類 方法 裝置 | ||
本申請提供一種短文本多標簽分類方法及裝置,包括利用與分類標簽對應的單分類模型,得到第一正向分類概率集;對第一正向分類概率集內的正向分類概率進行篩選,得到第一目標正向分類概率集;判斷第一目標正向分類概率集中的每個正向分類概率是否大于或等于第一預設分類閾值,若是,則將正向分類概率對應的分類標簽確定為待分類短文本所屬的第一分類類別;若否,則將正向分類概率對應的分類標簽確定為剩余分類標簽;利用多分類模型,對待分類短文本進行分類,得到第二分類類別集。本申請先對待分類短文本進行初始分類處理,然后再對該待分類短文本進行二次分類處理,可實現短文本的多分類處理,減少數據處理的繁復性,提高數據處理的速度。
技術領域
本申請涉及文本分類領域,尤其涉及一種短文本多標簽分類方法及裝置。
背景技術
隨著近年來互聯網的飛速發展,各種信息交互平臺會產生大量的短文本(shorttext),這些短文本涉及到人們生活的各個領域,逐漸成為人們使用頻繁且公認的溝通方式,如公安領域的報案信息、電子商務評論及智能問答系統等都是海量短文本的產生源。如何從海量短文本中挖掘有效信息,是近年來諸多學者廣泛研究的課題。文本分類是一種文本挖掘的有效方法,但由于短文本長度短、詞項特征稀疏等特點,只是傳統的長文本分類方法變得不再適用。
目前,卷積神經網絡技術(CNN)已廣泛應用到自然語言處理領域(NLP)中。卷積神經網絡技術具有多個分層,即卷積層、池化層、全連接層和分類層,由卷積層和池化層對待分類短文本中的特征詞進行提取,再由全連接層進行整合,最后利用分類層對待分類短文本進行分類。但是,由于分類層所使用的分類器為單類分類器,無法實現待分類短文本的多分類的需求。
發明內容
本申請提供了一種短文本多標簽分類方法及裝置,以解決由于分類層所使用的分類器為單類分類器,無法實現待分類短文本的多分類的問題。
第一方面,本申請提供一種短文本多標簽分類方法,包括:
獲取待分類短文本;
利用與分類標簽對應的單分類模型,得到第一正向分類概率集,所述第一正向分類概率集由利用所述單分類模型計算得到的所述待分類短文本在不同分類標簽中的正向分類概率及相應的分類標簽組成;
對所述第一正向分類概率集內的正向分類概率進行篩選,得到第一目標正向分類概率集;
判斷所述第一目標正向分類概率集中的每個正向分類概率是否大于或等于第一預設分類閾值,如果所述正向分類概率大于或等于所述第一預設分類閾值,則將所述正向分類概率對應的分類標簽確定為所述待分類短文本所屬的第一分類類別;
如果所述正向分類概率小于所述第一預設分類閾值,則將所述正向分類概率對應的分類標簽確定為剩余分類標簽;
利用多分類模型,對所述待分類短文本進行分類,得到第二正向分類概率集,所述多分類模型由剩余分類標簽對應的二分類模型組成,所述第二正向分類概率集由利用所述多分類模型計算得到的所述待分類短文本在不同剩余分類標簽中的正向分類概率及相應的剩余分類標簽組成;
對所述第二正向分類概率集中的正向分類概率進行篩選,得到第二分類類別集,所述第二分類類別集由篩選第二正向分類概率集后得到的正向分類概率對應的分類標簽組成;
將所述第一分類類別和第二分類類別集合并,得到分類結果。
第二方面,本申請提供一種短文本多標簽分類裝置,包括:
第一獲取模塊,用于獲取待分類短文本;
單分類模型計算模塊,用于利用與分類標簽對應的單分類模型,得到第一正向分類概率集,所述第一正向分類概率集由利用所述單分類模型計算得到的所述待分類短文本在不同分類標簽中的正向分類概率及相應的分類標簽組成;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810769761.1/2.html,轉載請聲明來源鉆瓜專利網。





