[發明專利]一種基于BERT的多標簽分類方法在審
| 申請號: | 202110121995.7 | 申請日: | 2021-01-29 |
| 公開(公告)號: | CN112860889A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 鄭文;張和偉;鄧麗平;侯凡 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 太原晉科知識產權代理事務所(特殊普通合伙) 14110 | 代理人: | 王軍 |
| 地址: | 030000 *** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 標簽 分類 方法 | ||
本發明公開了一種基于BERT的多標簽分類方法,具體為一種基于BERT的句子對分類任務,通過判斷句子和標簽的上下文關系,確定句子是否被該標簽標記。其中包括:數據預處理模塊、BERT微調模塊和分類器模塊。本發明將文本中的句子和所有標簽分別組成句子對,利用BERT模型的句子對分類任務在多領域有明顯優勢的優點,使句子和標簽的句子向量表征富含上下文的語義信息。最后本發明將上述得到的句子向量傳入分類器模塊,得到句子和標簽之間的語義關系,從而預測句子是否被該標簽標記。上述方法能夠大幅降低訓練所需要的數據,并保證較好的結果。
技術領域
本發明涉及自然語言處理技術領域,更具體地說,涉及一種基于BERT的多標簽分類方法。
背景技術
如今全球正處于人工智能的第三次浪潮中,各個領域都產生了種類豐富的數據,也都迫切的需要機器學習方法的引入,從而實現智能化、信息化和產業升級。為了提取這些數據中蘊藏的豐富信息,人為進行數據歸納、分析、分類任務的傳統方式,在互聯網領域已經廣泛的被機器學習的方法所替代的案例。同時,各種傳統領域更是迫切的希望通過機器學習加速產業升級。為了更加高效的學習到數據中潛在的大量信息,機器學習的各個方向在近年來快速發展,研究內容越來越深入,研究領域越來越廣泛。分類問題作為機器學習領域重要的研究方向之一,具有較高的應用價值,也受到了大量研究者和各領域從業者的廣泛關注。
真實世界中,數據的累積往往是一個長時間的收集過程,分類任務的對象普遍同屬于多個類別,即關聯多個標簽。在機器學習方法應用的初期,具有多標簽的數據往往是較為普遍的情況。近年來,關于多標簽學習問題的研究都引起了廣泛的關注,成為兩個機器學習領域研究的熱門方向,傳統的分類學習方法的應用場景,通常設定為單標簽分類問題,每個實例只與適合其屬性特征相對應的一個標簽相關聯。但是,在真實世界中,對某一實例的標注通常有一組標簽可以與之相關聯。例如,在論文數據庫的檢索過程中,可以采用論文標題實現單一標簽的檢索分類問題,但這并不便于論文查找。在實際檢索過程中,通常采用關鍵詞的方式對相關論文進行分類檢索,一篇論文往往包含數個關鍵詞。在通過多關鍵詞將文本進行分類的應用時,傳統的單標簽監督學習不完全適用于此類多標簽分類任務。由此,凸顯了更符合實際生活的多標簽分類問題的重要性。
發明內容
本發明要解決的技術問題在于,針對現有技術中存在的不足,本發明提供一種基于BERT的多標簽分類方法。
本發明解決其技術問題所采用的技術方案是:構造一種基于BERT的多標簽分類方法,包括:
選取CAIL-2019數據集作為語料,將數據集中所有的文本數據與不同的標簽組合,并根據句子的標簽列表為句子組合打上新的標簽;
對處理后的文本數據進行分詞,在每一文本數據的句子開頭連接[CLS]標記,在句子與標簽之間加入[SEP]標記;
對分詞后的文本數據進行向量化表示,將輸入文本數據中每個單詞用預訓練的單詞特征向量表示,得到分詞后文本數據的向量;
提取出分詞后文本數據的特征詞向量及標簽的特征詞向量,利用self-attention操作得到語義融合的句子向量;
將句子向量輸入前饋神經網絡模型,通過模型輸出結果預測句子的關系。
其中,在將數據集中所有的文本數據與不同的標簽組合的步驟中,句子對中的每個句子與每個標簽組合一次。
其中,在對處理后的文本數據進行分詞的步驟中,通過預定義符號[CLS]和[SEP]進行拼接后的序列;其中,拼接后的序列為“[CLS]句子[SEP]標簽[SEP]”,[CLS]是輸入文本序列,[SEP]是句子和標簽的分割符號。
其中,將句子向量通過前饋神經網絡預測句子的關系,即求出樣本y屬于標簽L的概率:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110121995.7/2.html,轉載請聲明來源鉆瓜專利網。





