[發明專利]一種面向機器閱讀理解的答案推薦方法有效
| 申請號: | 202010775911.7 | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111782961B | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 趙翔;霍立軍;徐浩;譚真;葛斌;肖衛東;黃魁華;李碩豪 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06F40/126;G06F40/289;G06F40/30;G06N3/04;G06N5/04 |
| 代理公司: | 長沙大珂知識產權代理事務所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 機器 閱讀 理解 答案 推薦 方法 | ||
本發明公開了一種面向機器閱讀理解的答案推薦方法,包括以下步驟:接受問題q和支持文檔集T′;進行句子分割和語義編碼,包括文本預處理、詞編碼和句子編碼;根據編碼的語義進行推斷以構建多跳推理鏈,包括選擇節點和建立跳邊;通過挖掘多跳推理鏈的信息以對候選集進行排序,包括推理鏈信息的集成和答案概率分布的計算;根據答案概率分布結果,從候選集中預測答案。本發明方法創新性的為機器閱讀理解使用了基于句子的推理,在這個過程中,構造了多個邏輯鏈來連接與問題相關的句子;引入了句子級聯,以處理基于上下文的有效共指的潛在問題。最后在流行的多跳機器閱讀數據集上獲得了具有競爭力的準確性結果。
技術領域
本發明屬于人工智能中的自然語言處理技術領域,涉及機器自動閱讀理解方法,具體涉及一種面向機器閱讀理解的答案推薦方法。
背景技術
機器閱讀理解(MRC)是自然語言處理(NLP)領域的一個重要任務,其旨在讓機器根據給定的問題和文章,抽取相關的信息和知識,從而得到答案。相對于自然語言處理中的命名實體識別(NER),關系抽取等基礎任務,MRC是一個更復雜,更高層的任務,其對語義的理解要求更高,抽取的文本信息更多。
近年來,為了機器閱讀理解的深入發展,很多數據集被開發出來用于去驗證機器閱讀理解模型的效果,例如斯坦福大學提出的squad數據集。大多現有的數據集都是針對單文檔閱讀理解任務,即每個問題對應于一篇文章,解決問題需要的信息集中于一篇文章,不存在文章與文章之間的信息線索跳動。然而,最近一些新的數據集聚焦于多跳閱讀理解任務,即一個問題對應于多篇文章的情況,比如WikiHop和MedHop()。多文檔閱讀理解任務要求閱讀理解模型依據問題線索信息在多篇文章之間進行合理跳躍,找到足夠的有用知識,最終推理得出答案。
多文檔閱讀理解相較于單文檔閱讀理解任務更具有挑戰性,主要表現在三個方面。首先,對于每個問題,多文檔閱讀理解任務都提供了大量的支持文檔,但只有一部分文檔包含解決問題的信息,其余為干擾文檔。大部分現有的閱讀理解模型難以處理如此規模的文檔,并且不具備抗干擾能力。其次,解決問題的信息分布在多篇文檔之中,需要模型的有效推理,形成一個可靠的信息鏈。然而,大部分模型的推理能力較差,甚至不具備推理能力。最后,推理形成的信息鏈可能存在多條,需要被二次排序篩選,這給模型的帶來了很大的不確定性。
發明內容
有鑒于此,本發明的目的在于提出一種面向機器閱讀理解的答案推薦方法,所述方法提出了基于句子推理的遞進式閱讀理解模型,首先,從問題出發,找到問題中的主要實體,并在支持文檔中找到包含該實體的句子,完成推理鏈初始構建;然后,設計了一個句子選擇器用于句子與句子之間的推斷,完成推理鏈的構建;對于已有的推理鏈,設計一個答案預測器令其使用推理鏈來找到答案。一個問題可能會存在多個可能的推理鏈,因此本發明重復這兩個模塊,對每個問題構建多條推理鏈。
基于上述目的,一種面向機器閱讀理解的答案推薦方法,包括以下步驟:
步驟1,接受問題q和支持文檔集T′,問題q以元組(Ie,r,?)的形式提供,其中Ie是左實體,?表示未知右實體,r表示Ie與未知右實體也就是答案之間的關系;
步驟2,進行句子分割和語義編碼,包括文本預處理、詞編碼和句子編碼;
步驟3,根據編碼的語義進行推斷以構建多跳推理鏈,包括選擇節點和建立跳邊;
步驟4,通過挖掘多跳推理鏈的信息以對候選集進行排序,包括推理鏈信息的集成和答案概率分布的計算;
步驟5,根據答案概率分布結果,從候選集中預測未知右實體即答案。
具體地,步驟2中所述的預處理包括:使用TF-IDF算法來計算問題和每個支持文檔之間的余弦相似度并對其進行排名,截取前N個支持文檔以獲得新的支持文檔集
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010775911.7/2.html,轉載請聲明來源鉆瓜專利網。





