[發(fā)明專利]一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211519636.8 | 申請(qǐng)日: | 2022-11-30 |
| 公開(kāi)(公告)號(hào): | CN115757795A | 公開(kāi)(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計(jì))人: | 唐宏;劉杰;甘陳敏;彭金枝;孫銳 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/30;G06F18/214;G06N3/048;G06N3/047;G06N3/0442;G06N3/0455;G06N3/08;G06N3/096 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 盧勝斌 |
| 地址: | 400065 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 長(zhǎng)尾 問(wèn)題 標(biāo)簽 文本 分類(lèi) 方法 | ||
1.一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法,其特征在于,構(gòu)建包括文本語(yǔ)義提取模塊、權(quán)重轉(zhuǎn)移模塊、融合模塊以及分類(lèi)模塊的文本分類(lèi)模型,進(jìn)行分類(lèi)的過(guò)程包括以下步驟:
S1、文本語(yǔ)義提取模塊通過(guò)Bert、BILSTM以及注意力機(jī)制對(duì)頭部標(biāo)簽和尾部標(biāo)簽進(jìn)行文本語(yǔ)義提取,分別獲得頭部標(biāo)簽文本表示和尾部標(biāo)簽文本表示;
S2、對(duì)頭部標(biāo)簽文本表示和尾部標(biāo)簽文本表示分別進(jìn)行采樣,得到頭部標(biāo)簽原型和尾部標(biāo)簽原型;
S3、利用頭部標(biāo)簽文本表示對(duì)頭部標(biāo)簽分類(lèi)器進(jìn)行訓(xùn)練,獲取頭部標(biāo)簽分類(lèi)器,通過(guò)最小化頭部標(biāo)簽分類(lèi)器的損失函數(shù),得到頭部標(biāo)簽權(quán)重;
S4、權(quán)重轉(zhuǎn)移模塊將頭部標(biāo)簽原型映射到頭部標(biāo)簽權(quán)重上,并通過(guò)最小化遷移學(xué)習(xí)獲取轉(zhuǎn)移權(quán)重;
S4、權(quán)重轉(zhuǎn)移模塊根據(jù)轉(zhuǎn)移權(quán)重對(duì)頭部標(biāo)簽權(quán)重進(jìn)行轉(zhuǎn)移,得到尾部標(biāo)簽分類(lèi)器;
S5、融合模塊將尾部標(biāo)簽分類(lèi)器和頭部標(biāo)簽分類(lèi)器進(jìn)行融合,得到分類(lèi)模塊;
S6、將待分類(lèi)數(shù)據(jù)的文本表示輸入分類(lèi)模塊,得到分類(lèi)結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法,其特征在于,獲取文本表示的過(guò)程包括:
采用Bert模型對(duì)文本進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練文本表示;
通過(guò)BILSTM獲取預(yù)訓(xùn)練文本表示的文本上下文依賴關(guān)系;
利用注意力機(jī)制對(duì)文本上下文依賴關(guān)系進(jìn)行強(qiáng)化,得到文本表示。
3.根據(jù)權(quán)利要求2所述的一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法,其特征在于,文本通過(guò)Bert進(jìn)行預(yù)訓(xùn)練,輸出結(jié)果為{V1,V2,...,Vp,...,Vn},n代表最大單詞長(zhǎng)度,Vp為第p個(gè)單詞對(duì)應(yīng)的文本嵌入向量;采用的Bert維度為768維,多頭注意力機(jī)制個(gè)數(shù)是12個(gè),Transformer層數(shù)是12層。
4.根據(jù)權(quán)利要求3所述的一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法,其特征在于,通過(guò)BILSTM獲取預(yù)訓(xùn)練文本表示的文本上下文依賴關(guān)系包括:
其中,Vp為第p個(gè)單詞對(duì)應(yīng)的文本嵌入向量;H為文本上下文依賴關(guān)系,H∈R2k×n,為前向文本上下文依賴關(guān)系,為后向文本上下文依賴關(guān)系,表示在p處的前向隱狀態(tài),表示在p處的后向隱狀態(tài)。
5.根據(jù)權(quán)利要求4所述的一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法,其特征在于,利用注意力機(jī)制對(duì)文本上下文依賴關(guān)系進(jìn)行強(qiáng)化,得到文本表示包括:
e=softmax(tanh(W1H))
o=eHTW2
其中,e表示所有單詞對(duì)文本的貢獻(xiàn)程度,o為文本表示,W1∈R1×2k、W2∈R2k×d為可訓(xùn)練矩陣,d表示文檔表示的維度。
6.根據(jù)權(quán)利要求1所述的一種基于長(zhǎng)尾問(wèn)題的多標(biāo)簽文本分類(lèi)方法,其特征在于,頭部標(biāo)簽分類(lèi)器包括一層Sigmoid激活函數(shù),文本表示輸入頭部標(biāo)簽分類(lèi)器,將交叉熵?fù)p失函數(shù)作為頭部標(biāo)簽分類(lèi)器的損失函數(shù),通過(guò)最小化損失函數(shù)求得頭部標(biāo)簽的權(quán)重Whead,表示為:
其中,為頭部標(biāo)簽分類(lèi)器預(yù)測(cè)得到的分類(lèi)結(jié)果,o為文本表示,Whead表示頭部分類(lèi)器的權(quán)重,lhead表示頭標(biāo)簽對(duì)應(yīng)的標(biāo)簽數(shù)量,xi表示第i個(gè)文本,Dhead表示頭部標(biāo)簽對(duì)應(yīng)文本的集合,表示第i個(gè)文本對(duì)應(yīng)第j個(gè)頭部標(biāo)簽的預(yù)測(cè)概率,yij表示第i個(gè)文本對(duì)應(yīng)第j個(gè)頭部標(biāo)簽的實(shí)際概率,loss表示損失函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211519636.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹(shù)形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





