[發(fā)明專利]一種文本分類方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911010301.1 | 申請(qǐng)日: | 2019-10-23 |
| 公開(公告)號(hào): | CN110968692B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 張強(qiáng);鄧君華;趙鯨朋;柴博;馬應(yīng)龍;宋博川;賈全燁 | 申請(qǐng)(專利權(quán))人: | 全球能源互聯(lián)網(wǎng)研究院有限公司;國(guó)網(wǎng)江蘇省電力有限公司;國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)家電網(wǎng)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/31;G06F18/2415;G06F40/30;G06N3/044;G06N3/08 |
| 代理公司: | 北京三聚陽(yáng)光知識(shí)產(chǎn)權(quán)代理有限公司 11250 | 代理人: | 張琳琳 |
| 地址: | 102211 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 方法 系統(tǒng) | ||
1.一種文本分類方法,其特征在于,包括:
獲取待分類文本的父標(biāo)簽,將所述父標(biāo)簽轉(zhuǎn)化為父標(biāo)簽詞索引向量;
將父標(biāo)簽詞索引向量與文本詞索引向量進(jìn)行父標(biāo)簽嵌入操作,獲取文本詞索引表征;
將所述文本詞索引表征進(jìn)行轉(zhuǎn)化生成待分類文本的語(yǔ)義向量;
利用神經(jīng)元有序的循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)所述語(yǔ)義向量的層次結(jié)構(gòu),并對(duì)層次結(jié)構(gòu)的各層參數(shù)進(jìn)行訓(xùn)練,輸出文本表征;
利用至少一層多層感知器對(duì)所述文本表征進(jìn)行非線性操作,獲取待分類文本各層標(biāo)簽對(duì)應(yīng)的概率分布;
根據(jù)文本最后一層標(biāo)簽的概率分布,獲取文本分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的文本分類方法,其特征在于,所述將父標(biāo)簽詞索引向量與文本詞索引向量進(jìn)行父標(biāo)簽嵌入操作,獲取文本詞索引表征的步驟,通過以下公式進(jìn)行:
其中,zi,j表示在第j級(jí)標(biāo)簽的第i個(gè)文本的文本詞索引表征,wi表示第i個(gè)文本詞索引向量,表示向量拼接操作,ci,j-1表示第i個(gè)文本的第j-1級(jí)標(biāo)簽詞索引向量。
3.根據(jù)權(quán)利要求1所述的文本分類方法,其特征在于,所述利用神經(jīng)元有序的循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)所述語(yǔ)義向量的層次結(jié)構(gòu),并對(duì)層次結(jié)構(gòu)的各層參數(shù)進(jìn)行訓(xùn)練的步驟,包括:
利用神經(jīng)元有序的循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)待分類文本中的語(yǔ)法信息,學(xué)習(xí)待分類文本語(yǔ)義向量的層次結(jié)構(gòu);
將前一層級(jí)標(biāo)簽訓(xùn)練的網(wǎng)絡(luò)的權(quán)重參數(shù)遷移到當(dāng)前層級(jí)標(biāo)簽作為其初始化參數(shù)進(jìn)行訓(xùn)練,對(duì)層次結(jié)構(gòu)的各層參數(shù)進(jìn)行訓(xùn)練。
4.根據(jù)權(quán)利要求3所述的文本分類方法,其特征在于,輸出的文本表征通過以下公式表示:
其中,htj表示輸入序列在t時(shí)刻的隱藏層狀態(tài)向量,表示對(duì)j-1級(jí)標(biāo)簽進(jìn)行分類時(shí)網(wǎng)絡(luò)最終的權(quán)重參數(shù),xtj表示t時(shí)刻第j級(jí)標(biāo)簽的待分類文本的語(yǔ)義向量集合。
5.根據(jù)權(quán)利要求3所述的文本分類方法,其特征在于,所述利用至少一層多層感知器對(duì)所述文本表征進(jìn)行非線性操作,獲取待分類文本各層標(biāo)簽對(duì)應(yīng)的概率分布的步驟,包括:
利用tanh非線性層和softmax非線性層兩層全連接層做非線性變換操作,預(yù)測(cè)第j級(jí)標(biāo)簽上的概率分布:
dj=tanh(W1hTj+b1),
yj=softmax(W2dj+b2),
其中,dj為tanh非線性層的非線性變換操作輸出,W1和b1分別表示為tanh非線性層的權(quán)值矩陣和偏置,yj為softmax非線性層的非線性變換操作輸出,W2和b2分別表示softmax非線性層的權(quán)值矩陣和偏置。
6.根據(jù)權(quán)利要求5所述的文本分類方法,其特征在于,以最小化預(yù)測(cè)分布與真實(shí)分布的交叉熵作為損失函數(shù)訓(xùn)練網(wǎng)絡(luò),所述損失函數(shù)為:
其中,Cj表示第j級(jí)標(biāo)簽種類數(shù),N表示訓(xùn)練的樣本數(shù),表示預(yù)測(cè)標(biāo)簽,y表示真實(shí)標(biāo)簽,表示第n個(gè)文本的第c個(gè)位置的真實(shí)標(biāo)簽,表示第n個(gè)文本的第c個(gè)位置的預(yù)測(cè)標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于全球能源互聯(lián)網(wǎng)研究院有限公司;國(guó)網(wǎng)江蘇省電力有限公司;國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)家電網(wǎng)有限公司,未經(jīng)全球能源互聯(lián)網(wǎng)研究院有限公司;國(guó)網(wǎng)江蘇省電力有限公司;國(guó)網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國(guó)家電網(wǎng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911010301.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:光纖激光器用光閘的透鏡冷卻裝置
- 下一篇:一種葡萄枝夾
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





