[發(fā)明專利]一種基于XLNet-BiGRU-CRF的智能問答方法在審
| 申請?zhí)枺?/td> | 202110913182.1 | 申請日: | 2021-08-10 |
| 公開(公告)號: | CN113641809A | 公開(公告)日: | 2021-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 劉大偉;胡笳;車少帥;張邱鳴;張瑋 | 申請(專利權(quán))人: | 中電鴻信信息科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/169;G06F40/205;G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 王磊 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 xlnet bigru crf 智能 問答 方法 | ||
1.一種基于XLNet-BiGRU-CRF的智能問答方法,其特征在于,包括以下步驟:
步驟1:基于大規(guī)模無標(biāo)注語料訓(xùn)練XLNet中文模型,所述XLNet中文模型包括排列語言模型、雙流注意力機(jī)制和Transformer-XL核心組件;
步驟2:獲取用于構(gòu)建知識圖譜及構(gòu)建命名實(shí)體識別模型的訓(xùn)練語料數(shù)據(jù),對訓(xùn)練語料數(shù)據(jù)進(jìn)行預(yù)處理并標(biāo)注,同時(shí)將訓(xùn)練語料數(shù)據(jù)經(jīng)預(yù)處理后得到的三元組數(shù)據(jù)存入Neo4j數(shù)據(jù)庫,并根據(jù)步驟1中訓(xùn)練好的XLNet中文模型分別提取三元組數(shù)據(jù)對應(yīng)問題的Embedding句向量一并存入Neo4j數(shù)據(jù)庫;所述三元組由問題實(shí)體、問題屬性、答案組成;
步驟3:基于步驟1訓(xùn)練好的XLNet中文模型構(gòu)建XLNet-BiGRU-CRF神經(jīng)網(wǎng)絡(luò)模型,并利用步驟2中標(biāo)注完成的訓(xùn)練語料數(shù)據(jù)訓(xùn)練XLNet-BiGRU-CRF模型;
步驟4:利用訓(xùn)練完成的XLNet-BiGRU-CRF模型對待識別的用戶問題的文本內(nèi)容進(jìn)行實(shí)體識別,得到實(shí)體識別結(jié)果;
步驟5:根據(jù)步驟4中的實(shí)體識別結(jié)果提取Neo4j數(shù)據(jù)庫中具有對應(yīng)實(shí)體的若干個(gè)相關(guān)三元組數(shù)據(jù),利用XLNet中文模型提取待識別的用戶問題的Embedding句向量,并將其分別與提取到的若干相關(guān)三元組數(shù)據(jù)對應(yīng)問題的Embedding句向量作余弦相似度比較,將相似度得分最高的問題對應(yīng)的答案作為目標(biāo)結(jié)果,同時(shí)將相似度得分排名第二和第三的相關(guān)三元組對應(yīng)的問題及答案提供給用戶作為相似問題供用戶參考。
2.如權(quán)利要求1所述的一種基于XLNet-BiGRU-CRF的智能問答方法,其特征在于,步驟1中所述的排列語言模型用于隨機(jī)打亂文本句子中的漢字順序,給定長度為T的文本序列,其漢字不同順序的排列組合為AT,a為排列組合中的一種且a∈AT,排列語言模型的建模過程表示為
其中,表示所有排列組合的期望,為排列組合a文本序列中的第t個(gè)元素,xa<t為排列組合a文本序列中的第1~(t-1)個(gè)元素,θ為待訓(xùn)練的模型參數(shù),pθ表示條件概率。
3.如權(quán)利要求1所述的一種基于XLNet-BiGRU-CRF的智能問答方法,其特征在于,步驟1中所述雙流注意力機(jī)制包括文本內(nèi)容注意力流和查詢注意力流,文本內(nèi)容注意力流表示的是包含位置信息和內(nèi)容信息的自注意力機(jī)制,查詢注意力流表示的是只包含位置信息的輸入流,在對需要的預(yù)測位置進(jìn)行預(yù)測時(shí)不會(huì)泄露當(dāng)前位置的內(nèi)容信息,文本內(nèi)容注意力流和查詢注意力流相結(jié)合用于提取有關(guān)上下文信息的特征;雙流注意力機(jī)制具體表示如下:
其中,分別表示第m層與第m-1層的查詢注意力流矩陣向量,其只包含輸入文本的位置信息,分別表示第m層與第m-1層的內(nèi)容注意力流矩陣向量,其包含輸入文本的內(nèi)容信息以及位置信息,表示排列組合為a文本序列中的第1~(t-1)個(gè)元素時(shí)第m-1層的內(nèi)容注意力流矩陣向量,Attention表示經(jīng)典的自注意力機(jī)制,其計(jì)算公式如下:
其中,Q,K,V均是輸入字向量矩陣,dim為輸入向量維度。
4.如權(quán)利要求1所述的一種基于XLNet-BiGRU-CRF的智能問答方法,其特征在于,步驟1中所述XLNet中文語言模型以Transformer-XL框架為核心,引入循環(huán)機(jī)制和相對位置編碼機(jī)制以利用上下文的語義信息,挖掘出文本向量內(nèi)的潛在關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中電鴻信信息科技有限公司,未經(jīng)中電鴻信信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110913182.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Smi2Vec的BiGRU藥物毒性預(yù)測系統(tǒng)及預(yù)測方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名實(shí)體識別方法及裝置
- 一種基于ERNIE-BiGRU的中文文本分類方法
- 基于深度學(xué)習(xí)的預(yù)測化合物蛋白質(zhì)親和力新型編碼方案、計(jì)算機(jī)設(shè)備、存儲介質(zhì)
- 一種基于BiGRU的智能電表計(jì)量模塊故障預(yù)測與診斷方法
- 基于邊緣注意力機(jī)制的預(yù)測化合物蛋白質(zhì)親和力方法、計(jì)算機(jī)設(shè)備、存儲介質(zhì)
- 一種預(yù)測化合物蛋白質(zhì)親和力的新型深度學(xué)習(xí)模型、計(jì)算機(jī)設(shè)備、存儲介質(zhì)
- 基于單獨(dú)注意力機(jī)制的預(yù)測化合物蛋白質(zhì)親和力方法、計(jì)算機(jī)設(shè)備、存儲介質(zhì)
- 一種基于ATAE-BiGRU的文本方面情感分類方法及系統(tǒng)
- 一種基于自注意力機(jī)制和BiGRU的文本分類方法
- 鑒定利用促腎上腺皮質(zhì)激素釋放因子受體來調(diào)節(jié)肌肉質(zhì)量或功能的化合物的方法
- 一種實(shí)現(xiàn)漫游計(jì)費(fèi)的方法及系統(tǒng)
- 一種基于分組數(shù)據(jù)流計(jì)費(fèi)的處理方法及系統(tǒng)
- 一種基于分組數(shù)據(jù)流計(jì)費(fèi)的系統(tǒng)及處理方法
- 一種CRF識別器的訓(xùn)練及技術(shù)及其屬性名關(guān)系對抽取方法
- 一種命名實(shí)體識別方法、裝置及系統(tǒng)
- 一種CRF的監(jiān)查方法及裝置
- 一種數(shù)據(jù)分析方法、裝置、設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 生成CRF表單的移動(dòng)終端界面的方法和裝置
- 促腎上腺皮質(zhì)素釋放因子-結(jié)合蛋白抑制劑及其用途





