[發(fā)明專利]一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法有效

申請?zhí)枺?/td>	202010554563.0	申請日：	2020-06-17
公開（公告）號：	CN111831789B	公開（公告）日：	2023-10-24
發(fā)明（設計）人：	譚華;徐維超;陳昌潤	申請（專利權(quán)）人：	廣東工業(yè)大學
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06F40/30;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08
代理公司：	廣州粵高專利商標代理有限公司 44102	代理人：	張金福
地址：	510060 廣東***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于多層語義特征提取結(jié)構(gòu) 問答文本匹配方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法，其特征在于，包括以下步驟：

S1：獲取問題與回答文本數(shù)據(jù)集，并構(gòu)建問題與錯誤回答對；

S2：將問題與回答文本數(shù)據(jù)集進行預處理得到初始矩陣；

S3：將問題與回答文本數(shù)據(jù)集中的問題文本與回答文本轉(zhuǎn)換成詞向量，所述詞向量用于表示文本詞匯的含義，將問題文本的詞向量、回答文本的詞向量分別結(jié)合形成問題文本句向量、回答文本句向量；

S4：構(gòu)建文本匹配的深度學習模型的多層上下文編碼結(jié)構(gòu)，將問題文本句向量、回答文本句向量輸入到所述的多層上下文編碼結(jié)構(gòu)中進行編碼；

S5：使用卷積神經(jīng)網(wǎng)絡對每層上下文編碼結(jié)構(gòu)的輸出進行卷積提取問題文本與回答文本的句子特征表示；

S6：每一層上下文編碼結(jié)構(gòu)的輸出經(jīng)過卷積之后，使用最大池化層提取多層中的語義特征作為句子的最終語義特征表示，所述句子的最終語義特征表示包括：問題文本的句子特征表示和回答文本的句子特征表示；

S7：計算問題文本的句子特征表示和回答文本的句子特征表示的余弦相似度，將問題文本與所有的回答文本匹配完后，選取與問題文本匹配到的余弦相似度最大的回答文本作為答案輸出。

2.根據(jù)權(quán)利要求1所述的一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法，其特征在于，所述問題與回答文本數(shù)據(jù)集包括問題及問題對應的正確答案、問題與錯誤回答，所述問題與錯誤回答是對每個問題從預設的答案池中隨機抽取一條不是問題的答案作為負樣本，構(gòu)成問題與錯誤回答。

3.根據(jù)權(quán)利要求1所述的一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法，其特征在于，問題與回答文本數(shù)據(jù)集進行預處理包括：

問答數(shù)據(jù)的清洗，分別對問題與回答數(shù)據(jù)集中的未登錄詞、停用詞、以及問題文本與回答文本字符數(shù)小于預設字符數(shù)的數(shù)據(jù)項進行清洗；

對清洗后的問題與回答文本數(shù)據(jù)集進行分詞操作和詞性標注操作。

4.根據(jù)權(quán)利要求1所述的一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法，其特征在于，所述將問題與回答文本數(shù)據(jù)集中的問題文本與回答文本轉(zhuǎn)換成詞向量是通過BERT模型的預訓練模型的固定參數(shù)的詞向量神經(jīng)網(wǎng)絡將問題文本與回答文本的詞轉(zhuǎn)化對應的詞向量并將問題文本與回答文本對應的詞向量構(gòu)建成詞向量矩陣，所述詞向量矩陣行數(shù)為每個問題或回答文本的次數(shù)，列數(shù)為每個詞對應向量所指定的維數(shù)。

5.根據(jù)權(quán)利要求1所述的一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法，其特征在于，所述深度學習模型的多層上下文編碼結(jié)構(gòu)為自注意力機制Transformer單元，共有12層Transformer編碼結(jié)構(gòu)，所述12層Transformer編碼結(jié)構(gòu)依次串聯(lián)，每一層結(jié)構(gòu)具有輸出，問題文本句向量、回答文本句向量輸入至多層上下文編碼結(jié)構(gòu)的第一次層，第一層的輸出逐層進行傳遞同時每一層也輸出當前層的編碼結(jié)果矩陣，保存每一層的輸出上下文語義信息結(jié)果矩陣，用于下一層的輸入數(shù)據(jù)。

6.根據(jù)權(quán)利要求1所述的一種基于多層語義特征提取結(jié)構(gòu)的問答文本匹配方法，其特征在于，使用卷積神經(jīng)網(wǎng)絡對每層上下文編碼結(jié)構(gòu)的輸出進行卷積提取問題文本與回答文本的句子特征表示具體為：

使用不同大小卷積核的卷積神經(jīng)網(wǎng)絡對每一層的上下文語義特征進行卷積操作；

將不同大小卷積核的卷積神經(jīng)網(wǎng)絡卷積提取出的語義特征結(jié)果整合到一起；

每一層的語義特征作為一個通道，使用最大池化提取12層中最大的語義特征；

池化層輸出的語義特征矩陣是句子最后經(jīng)過多層語義層提取的語義特征，也就是句子的特征表示；

將問題句子的特征表示與回答句子的特征表示進行匹配獲取匹配結(jié)果。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東工業(yè)大學，未經(jīng)廣東工業(yè)大學許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010554563.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】