[發明專利]一種基于多層語義特征提取結構的問答文本匹配方法有效
| 申請號: | 202010554563.0 | 申請日: | 2020-06-17 |
| 公開(公告)號: | CN111831789B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 譚華;徐維超;陳昌潤 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06F40/30;G06N3/0455;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 張金福 |
| 地址: | 510060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多層 語義 特征 提取 結構 問答 文本 匹配 方法 | ||
本發明公開了一種基于多層語義特征提取結構的問答文本匹配方法,包括:獲取問題與回答文本數據集,并構建問題與錯誤回答對;將問題與回答文本數據集預處理得到初始矩陣;將問題文本與回答文本轉換成詞向量并分別結合形成問題文本句向量、回答文本句向量;構建多層上下文編碼結構并對問題文本句向量、回答文本句向量編碼;使用卷積神經網絡對每層上下文編碼結構的輸出進行卷積提取句子特征表示;每一層上下文編碼結構的輸出經過卷積之后,使用最大池化層提取多層中的語義特征作為句子的最終語義特征表示;計算問題文本的句子特征表示和回答文本的句子特征表示的相似度。本發明解決了傳統方法無法對文本數據之間的關聯性特征深層提取的技術問題。
技術領域
本發明涉及自然語言處理技術領域,更具體地,涉及一種基于多層語義特征提取結構的問答文本匹配方法。
背景技術
文本匹配是自然語言處理的核心研究領域,有著悠久的歷史。在文本匹配任務中,模型以兩個文本序列作為輸入,并預測一個類別或一個標量值來表示它們之間的關系。范圍廣泛的任務,包括自然語言推斷,釋義識別,答案選擇等。很多自然語言處理的任務都可以抽象成文本匹配問題,例如信息檢索可以歸結成查詢項和文檔的匹配,問答系統可以歸結為問題和候選答案的匹配,對話系統可以歸結為對話和回復的匹配。針對不同的任務選取合適的匹配模型,提高匹配的準確率成為自然語言處理任務的重要挑戰。衡量不同文本字符串之間的語義相似性的兩個重要問題是詞匯不匹配和整合上下文信息的難度?;ヂ摼W的快速發展促進了信息的爆炸性增長,其中深度神經網絡是當前文本匹配最常用的方法。語義對齊和兩個文本序列的比較是神經文本匹配的關鍵。許多以前的深度神經網絡包含一個單序列間對齊層。為了充分利用這一僅有的對齊過程,模型必須采用豐富的外部句法特征或手工設計的對齊特征作為對齊層的額外輸入,采用復雜的對齊機制;或構建大量的后處理層來分析對齊結果。
目前自然語言處理的大多深度學習模型都是采用循環神經網絡結構進行整合文本序列的上下文信息。深度學習應用在文本匹配上可以總結為以下四個階段:1、單語義模型、2、多語義模型、3、匹配矩陣模型、4、深層次的句子間模型,,隨著注意力機制等交互機制論文的發表,最新的論文用更精細的結構去挖掘句子內和句子間不同單詞之間的聯系,得到更好的效果。
現有的自然語言處理的深度學習模型中,對于文本上下文語義信息提取結構,使用多層串聯的語義結構對文本信息進行編碼,最終取最后一層的輸出作為文本特征的輸出。但是并沒有結合每一層的輸出。由于每一層語義提取結構都是作為“黑匣子”,無法實現層與層之間的關聯性特征的深層提取。因而對于文本語義特征提取的不夠充分以及過于冗余?,F有技術中,公開號為CN109726396A的發明專利,該發明提供了一種基于多級特征和深度學習的問答文本語義匹配方法,對問答文本的單詞和句法信息進行單詞和句法結構分布式表示,并使用循環神經網絡提取問答文本的上下文局部特征信息和句法結構特征信息,然后運用注意力機制抽取背景全局特征信息,使問答文本的特征信息更豐富,從而提高問答文本語義匹配的準確性。該發明側重于問答文本的上下文局部特征信息和句法結構特征信息,沒有在特征提取時考慮層與層之間的關聯性特征。
發明內容
本發明為克服上述現有技術中無法實現層與層之間的關聯性特征的深層提取,導致特征提取不夠充分或過分冗余的缺陷,提供一種基于多層語義特征提取結構的問答文本匹配方法。
本發明的首要目的是為解決上述技術問題,本發明的技術方案如下:
一種基于多層語義特征提取結構的問答文本匹配方法,包括以下步驟:
S1:獲取問題與回答文本數據集,并構建問題與錯誤回答對;
S2:將問題與回答文本數據集進行預處理得到初始矩陣;
S3:將問題與回答文本數據集中的問題文本與回答文本轉換成詞向量,所述詞向量用于表示文本詞匯的含義,將問題文本的詞向量、回答文本的詞向量分別結合形成問題文本句向量、回答文本句向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010554563.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種彈簧鋼的冶煉方法
- 下一篇:一種配電柜外殼抗壓檢測裝置





