[發明專利]一種基于多文檔的復雜問題自動化求解方法有效
| 申請號: | 202010165743.X | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111460092B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 徐建;吳蔚;李曉冬;王鑫鵬;徐琳;阮國慶;王羽 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/211;G06F16/35;G06F40/289 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文檔 復雜 問題 自動化 求解 方法 | ||
本發明提供了一種基于多文檔的復雜問題自動化求解方法,本發明采用閱讀理解加答案排序的策略,并針對帶有推理過程的復雜問題引入橋接實體,有效的求解了復雜問題。針對多文檔的機器閱讀理解技術,首先拆分文檔為段落,然后針對每個段落利用閱讀理解模型預測出答案,有效的提高了答案的召回率;然后對于多個候選答案利用排序模型進行排序,選擇出最有可能的答案;對于帶有推理過程的問題首先預測出橋接實體,然后將橋接實體拼接到原始問題之后,有效的解決了推理問題的歧義性。經過以上三個步驟,本發明能夠實現針對基于多文檔的復雜問題求解。
技術領域
本發明涉及一種基于多文檔的復雜問題自動化求解方法。
背景技術
讓機器完成閱讀理解與問答是當前AI界前沿的一個火熱主題,主要涉及到深度學習、自然語言處理和信息檢索。機器閱讀理解無論是在工業界還是學術界都有著很高的研究價值,它能夠讓計算機幫助人類在大量文本中找到想要的答案,從而減輕人們對信息的獲取的成本。也許,未來的搜索引擎將不僅僅是返回用戶相關的鏈接和網頁,而是通過對互聯網上的海量資源進行閱讀理解,直接得出答案返回給用戶。
目前,基于單文檔的閱讀理解技術比較成熟,但是單文檔的閱讀理解并不符合實際需求,主要體現在兩點:首先給定一個問題答案往往是分布在多個文章,這就要考慮多文檔的閱讀理解技術;其次問題往往帶有推理過程,不會是很簡單的完型填空問題。
發明內容
發明目的:本發明所要解決的技術問題是為克服現有的單文檔閱讀理解模型不符合實際需求的缺陷,提供一種基于多文檔的復雜問題自動化求解方法,包括如下步驟:
步驟1,針對單個段落進行單文檔閱讀理解,每個段落都預測出一個答案;
步驟2,進行答案排序;
步驟3,針對給定的問題,求解出最終的答案。
步驟1包括:
步驟1-1,對文檔劃分段落:對文檔斷句然后遍歷每個句子,判斷加入當前句子后段落長度是否超過給定閾值(這里的閾值設置為400個字符長度),如果超過將開始一個新的段落,否則將當前句子加入當前段落;
步驟1-2,對步驟1-1劃分后的段落進行數據預處理,包括全半角轉換和繁簡體轉換;
步驟1-3,將步驟1-2處理后的段落輸入閱讀理解模型,所述閱讀理解模型為bert預訓練模型,然后在bert編碼后的隱藏層接兩個指針網絡,經過閱讀理解模型每個段落預測出一個答案(參考論文:https://arxiv.org/pdf/1810.04805.pdf)。
步驟1-3中,將步驟1-2處理后的段落輸入閱讀理解模型,并引入一個輔助任務來預測文章中每一個詞是否能成為答案,所述輔助任務為:對每一個字做二分類,如果該字在答案中,給該字打上標簽為1,表示這個字是在答案中,否則打上標簽為0,表示該字不在答案中。
現有的閱讀理解模型可以給予正確的開始和結束位置較高的概率,并且對開始位置和結束位置之間的所有位置都分配較低的概率。為了給開始和結束位置中的詞都賦值較大得分,引入了一個輔助任務來預測文章中每一個詞是否能成為答案。通過這個輔助任務,模型不僅可以通過指針網絡正確指出start和end的位置,還可以給中間連續的答案分配較高的選中概率。
步驟2包括:
步驟2-1,句對排序:利用bert預訓練模型,將問題和答案所在的句子稱為問題和答案的上下文,將問題和答案的上下文對應的文本對輸入bert模型,經過bert編碼以后提取[CLS]的向量表示,然后經過一個輸出為1的全連接網絡,得到網絡輸出1,作為問題和答案上下文之間相似度得分;預測的時候針對給定的問題和兩個以上的答案,根據網絡輸出結果,選擇出topK(一般取值為2)個概率最高的答案;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010165743.X/2.html,轉載請聲明來源鉆瓜專利網。





