[發明專利]用于回答與文檔相關的查詢的機器閱讀理解系統有效
| 申請號: | 201880072527.1 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN111386686B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | M·亞達達;A·J·麥克納馬拉;K·薩勒曼;林錫輝;莊恩慧 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | H04L47/783 | 分類號: | H04L47/783 |
| 代理公司: | 北京世輝律師事務所 16093 | 代理人: | 王俊 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 回答 文檔 相關 查詢 機器 閱讀 理解 系統 | ||
一種機器閱讀理解系統(MRCS)可以分析包括多頁的較大文檔以預測對查詢的答案。例如,文檔可以具有兩頁、五頁、數十頁或數百頁。MRCS將文檔劃分為多個部分,其中每個部分包括文檔的一部分。每個部分由一個或多個處理電路分離地處理以確定針對該部分的得分。得分指示該部分與查詢的相關程度和/或該部分提供對查詢的可能答案的概率。一旦所有部分已經被分析,則這些部分按其得分被排名,并且排名的部分的子集被再次處理以確定對查詢的預測答案。
背景技術
使機器在接近人類的水平理解自然語言是人工智能的主要目標。實際上,大多數人類知識都是以自然語言文本收集的。因此,對非結構化的真實世界文本的機器理解引起了科學家、工程師和學者的極大關注。這至少部分是由于以下事實:很多自然語言處理任務(諸如信息提取、關系提取、文本摘要或機器翻譯)隱式或顯式取決于機器對自然語言的理解和推理能力。
在某些情況下,機器閱讀理解系統(MRCS)分析文檔以預測對查詢的答案。很多MRCS分析或處理包含有限頁數(例如,一頁或兩頁)的較小文檔。這樣的文檔的一個示例是新聞文章。MRCS可能難以處理包含多頁或很多頁(例如,數十到數百頁)的文檔。首先,訓練MRCS處理更大文檔可能會花費大量時間和數據。其次,一旦對MRCS進行了訓練,分析較大文檔可能需要大量處理能力和大量時間。
關于這些和其他一般考慮,已經描述了實施例。而且,盡管已經討論了相對具體的問題,但是應當理解,實施例不應當限于解決在背景技術中確定的具體問題。
發明內容
本文中描述的實施例提供了一種機器閱讀理解系統,該機器閱讀理解系統可以分析較大文檔(例如,兩頁、五頁、十頁、二十頁、五十頁或一百頁)以預測對查詢的答案。在一個方面,一種系統包括第一處理電路、第二處理電路、第三處理電路和一個或多個存儲設備。(多個)存儲設備存儲指令,該指令在由第一處理電路、第二處理電路和第三處理電路執行時引起機器閱讀理解系統執行一種方法。該方法包括響應于接收的查詢而將文檔劃分為多個部分(section),該多個部分各自包括該文檔的一部分,由第一處理電路分離地處理每個部分以確定指示該部分提供對接收的查詢的答案的第一得分,并且由第二處理電路分離地處理每個部分以確定指示該部分提供對接收的查詢的答案的第二得分。對于每個部分,組合第一得分和第二得分以產生最終得分。由第三處理電路分離地處理經處理的部分的子集中的每個部分以確定指示該部分提供對查詢的答案的第三得分。經處理的部分的子集中的每個部分基于最終得分的排名被包括在經處理的部分的子集中。然后基于每個第三得分確定對接收的查詢的預測答案。
在另一方面,一種方法包括:響應于接收的查詢而將文檔劃分為多個部分,該多個部分各自包括該文檔的一部分;分離地處理每個部分以確定指示該部分提供所接收的答案查詢的第一得分,并且分離地處理每個部分以確定指示該部分提供對接收的查詢的答案的第二得分。對于每個部分,組合第一得分和第二得分以產生最終得分。分離地處理經處理的部分的子集中的每個部分以確定指示該部分提供對查詢的答案的第三得分,其中經處理的部分的子集中的每個部分基于最終得分的排名被包括在經處理的部分的子集中。然后,基于每個第三得分確定對接收的查詢的預測答案。
在另一方面,一種方法包括:響應于接收的查詢而將文檔劃分為多個部分,該多個部分各自包括該文檔的一部分,由第一處理電路分離地處理每個部分以確定指示該部分提供對接收的查詢的答案的第一得分,并且由第二處理電路分離地處理每個部分以確定指示該部分提供對接收的查詢的答案的第二得分。對于每個部分,組合第一得分和第二得分以產生最終得分。分離地處理部分的子集中的每個部分以確定部分是否提供對查詢的答案,其中部分的子集中的每個部分基于最終得分的排名被包括在部分的子集中。子集中的每個部分的處理包括將部分分為句子,將每個句子分為單詞,由第三處理電路對部分中的每個句子和接收的查詢編碼,由第四處理電路處理經編碼的句子以確定該部分中與經編碼的查詢相關的一個或多個句子,對于相關的一個或多個句子中的每個相關的句子,將相關的句子與經編碼的查詢比較以產生第三得分。然后,基于每個第三得分選擇對接收的查詢的預測答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880072527.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于傳動裝置的換擋裝置
- 下一篇:蛋白質分離物及其產生方法





