[發(fā)明專利]一種基于BERT的多標簽分類方法在審
| 申請?zhí)枺?/td> | 202110121995.7 | 申請日: | 2021-01-29 |
| 公開(公告)號: | CN112860889A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設計)人: | 鄭文;張和偉;鄧麗平;侯凡 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 太原晉科知識產權代理事務所(特殊普通合伙) 14110 | 代理人: | 王軍 |
| 地址: | 030000 *** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 標簽 分類 方法 | ||
1.一種基于BERT的多標簽分類方法,其特征在于,包括:
選取CAIL-2019數據集作為語料,將數據集中所有的文本數據與不同的標簽組合,并根據句子的標簽列表為句子組合打上新的標簽;
對處理后的文本數據進行分詞,在每一文本數據的句子開頭連接[CLS]標記,在句子與標簽之間加入[SEP]標記;
對分詞后的文本數據進行向量化表示,將輸入文本數據中每個單詞用預訓練的單詞特征向量表示,得到分詞后文本數據的向量;
提取出分詞后文本數據的特征詞向量及標簽的特征詞向量,利用self-attention操作得到語義融合的句子向量;
將句子向量輸入前饋神經網絡模型,通過模型輸出結果預測句子的關系。
2.根據權利要求1所述的基于BERT的多標簽分類方法,其特征在于,在將數據集中所有的文本數據與不同的標簽組合的步驟中,句子對中的每個句子與每個標簽組合一次。
3.根據權利要求1所述的基于BERT的多標簽分類方法,其特征在于,在對處理后的文本數據進行分詞的步驟中,通過預定義符號[CLS]和[SEP]進行拼接后的序列;其中,拼接后的序列為“[CLS]句子[SEP]標簽[SEP]”,[CLS]是輸入文本序列,[SEP]是句子和標簽的分割符號。
4.根據權利要求1所述的基于BERT的多標簽分類方法,其特征在于,將句子向量通過前饋神經網絡預測句子的關系,即求出樣本y屬于標簽L的概率:
其中θ表示模型參數,最終輸出一個二維向量V=[v1,v2],vi表示標簽L下的條件概率;
對得到的二維向量做歸一化,使用的示性函數I得到最終結果,公式表示為:
其中,k1表示標簽1的概率,k2表示標簽2的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110121995.7/1.html,轉載請聲明來源鉆瓜專利網。





