[發(fā)明專利]一種文本分析裝置、方法及模型訓(xùn)練方法有效
| 申請?zhí)枺?/td> | 202010132022.9 | 申請日: | 2020-02-29 |
| 公開(公告)號: | CN111444714B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 王李鵬;王振杰 | 申請(專利權(quán))人: | 新華三大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/151;G06N3/0442;G06N3/04;G06N3/084 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭州市鄭州高*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分析 裝置 方法 模型 訓(xùn)練 | ||
1.一種文本分析裝置,其特征在于,所述裝置包括:
預(yù)處理層,用于對輸入文本進(jìn)行分詞和詞嵌入處理,將輸入文本內(nèi)容轉(zhuǎn)換成詞向量表示,輸出句子矩陣E;
密連接雙向循環(huán)神經(jīng)網(wǎng)絡(luò)RNN層,用于對輸入文本進(jìn)行深層次特征的提取,該層包括多個雙向RNN層,其中,第一層雙向RNN層的輸入為所述句子矩陣E,除第一層雙向RNN層外,之后的每一雙向RNN層的輸入為句子矩陣E與之前所有雙向RNN層的輸出組合后的特征向量;
平均池化層,用于采用平均池化的方式處理所述密連接雙向RNN層輸出的特征向量,提取輸入文本的關(guān)鍵信息;
輸出層,用于使用分類器對平均池化層輸出的特征向量進(jìn)行分類,得到所述輸入文本的關(guān)系分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述預(yù)處理層包括:
文本分詞單元,用于對輸入文本進(jìn)行分詞處理;
詞向量單元,用于對詞序列中的每個詞進(jìn)行詞向量嵌入處理,生成以向量表示的句子矩陣E。
3.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述除第一層雙向RNN層外,之后的每一雙向RNN層的輸入特征向量的組合方式為:
其中,m代表雙向RNN的層數(shù),n代表句子矩陣E中詞向量的個數(shù),en代表句子矩陣E中第n個詞向量,代表第m-1層雙向RNN層輸出的第n個詞向量對應(yīng)的輸出,表示前向和后向的拼接。
4.根據(jù)權(quán)利要求1所述的裝置,其特征在于,
所述密連接雙向RNN層中所使用的雙向RNN層為雙向門控循環(huán)單元BiGRU、雙向簡單循環(huán)單元BiSRU、雙向長短記憶網(wǎng)絡(luò)BiLSTM或雙向最少門控循環(huán)單元BiMGU。
5.一種文本分析方法,其特征在于,所述方法包括:
對輸入文本進(jìn)行分詞和詞嵌入處理,將輸入文本內(nèi)容轉(zhuǎn)換成詞向量表示,輸出句子矩陣E;
將句子矩陣E輸入到密集連接的多個雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層即雙向RNN層,提取輸入文本的深層次特征,其中,第一層雙向RNN層的輸入為所述句子矩陣E,除第一層雙向RNN層外,之后的每一雙向RNN層的輸入為句子矩陣E與之前所有雙向RNN層的輸出組合后的特征向量;
采用平均池化的方式處理所述密連接雙向RNN層輸出的特征向量,提取輸入文本的關(guān)鍵信息;
使用分類器對平均池化層輸出的特征向量進(jìn)行分類,得到所述輸入文本的關(guān)系分類結(jié)果。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述除第一層雙向RNN層外,之后的每一雙向RNN層的輸入特征向量的組合方式為,第m層雙向RNN層的輸入特征向量為:
其中,m代表雙向RNN的層數(shù),n代表句子矩陣E中詞向量的個數(shù),en代表句子矩陣E中第n個詞向量,代表第m-1層雙向RNN層輸出的第n個詞向量對應(yīng)的輸出,表示前向和后向的拼接。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,
所述雙向RNN層為雙向門控循環(huán)單元BiGRU、雙向簡單循環(huán)單元BiSRU、雙向長短記憶網(wǎng)絡(luò)BiLSTM或雙向最少門控循環(huán)單元BiMGU。
8.一種文本分析模型的訓(xùn)練方法,其特征在于,該方法使用文本分析模型,包括:
通過預(yù)處理層對輸入樣本進(jìn)行分詞和詞嵌入處理,將輸入樣本轉(zhuǎn)換成詞向量表示,輸出句子矩陣E;
使用密連接雙向RNN層對輸入樣本進(jìn)行深層次特征提取;所述密連接雙向RNN層包括多個雙向RNN層,其中,第一層雙向RNN層的輸入為所述句子矩陣E,除第一層雙向RNN層外,之后的每一雙向RNN層的輸入均為句子矩陣E與之前所有雙向RNN層的輸出組合后的特征向量;
使用平均池化層處理所述密連接雙向RNN層輸出的特征向量,提取輸入樣本的關(guān)鍵信息;
在輸出層使用分類器對平均池化層輸出的特征向量進(jìn)行分類,得到所述輸入樣本的關(guān)系分類結(jié)果;
使用測試樣本對文本分析模型進(jìn)行測試,優(yōu)化模型參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術(shù)有限公司,未經(jīng)新華三大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010132022.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





