[發明專利]一種用于問答系統的問答對排序方法有效
| 申請號: | 202010910552.1 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN111966810B | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 閆琰;李旭峰;張瀟;田士輝;劉程;張博文 | 申請(專利權)人: | 中國礦業大學(北京) |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/338 |
| 代理公司: | 北京金智普華知識產權代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 問答 系統 答對 排序 方法 | ||
本發明公開了一種用于問答系統的問答對排序方法,涉及自然語言處理領域。該方法包括以下步驟:針對給定問題檢索相關文檔,并初步篩選出大概率具有所需回答的文檔;將得到的文檔按段落拆分為N個片段,分別放在給定問題的后邊并向量化表示,得到N個向量化的問題?片段對,N為整數;將N個向量化表示的問題?片段對編碼為N個統一大小的單個向量;對得到的N個統一大小的單個向量進行分類,得到問題?片段對中“回答”是該“問題”的相關回答的概率,并進行排序;通過置信區間篩選出相關性較高的片段,作為最終答案。本發明可用于問答系統的問答對的準確排序。
技術領域
本發明涉及自然語言處理領域,具體涉及一種用于問答系統的問答對排序方法。
背景技術
根據現有調查,Cairns等人首先強調了建立生物醫學領域特定問題回答系統的重要性。之后,TREC(Text Retrieval Conference)——一個信息檢索領域的權威論壇,開始了基因組學研究。EQueR-EVALDA——一個法國問答系統評估運動,提出了構建一個特定生物醫學領域的問答系統以解決生物醫學問題的任務,最近這個任務取得了一系列進展。
除了上面的一些學術機構或組織在生物醫學問答系統方面開展的研究,一些企業如谷歌,MedQA、Onelook和PubMed也在嘗試構建問答應用程序。在問題回答的質量和使用方便上,Google的系統表現非常出色,遠優于其他三個組織。以上這些企業構建的系統都可以對醫生提出的大部分定義性問題給出一個合理的答案,但是由于某些限制,只能解決定義性問題。
BioASQ——一個評估生物醫學問答系統的比賽,它的設立旨在評估信息系統在支持生物醫學問題回答過程的表現。在第六屆BioASQ挑戰賽中,共有26個團隊和90多個系統參加了這一比賽,其中最好的問答系統的結果要優于最好的傳統方法。在這些參賽隊伍中,有一個挑戰隊的系統在比賽的所有任務中得分最高或接近最高。這個系統基于注意力機制理論,使用查詢詞矩陣和文檔詞矩陣的點乘計算注意力機制進行編碼。除此以外,系統還嵌入密集層和殘差的預訓練編碼生成上下文敏感詞。直觀而嚴格地講,基于雙向RNN(Recurrent Neural Network)的上下文敏感詞編碼與上下文編碼結果相同,并且后者更快,因此取得最好的結果。但是上述系統存在一些缺陷,只有在搜索一些相關文檔的內容才能獲得較好的結果。而當搜索相關片段時,結果就會變得糟糕,因為系統無法找到相關片段的準確位置。然而,在實際應用時相關文檔無法滿足這樣的要求,因為在給出候選文獻時,很難手動地從中找到準確的相關文檔內容。相反,找到一些相關的片段卻很容易。根據BioASQ競賽的概述,大多數研究片段檢索的參與者在檢索文章時都采用了與該方法類似的處理,他們的主要區別在于拆分文檔的方法。NCBI建議直接使用相關文檔中的句子,用句子拆分文檔進行檢索。而BioASQ參與者的另一項研究則旨在定義一系列單詞的粒度來拆分文檔。還有幾位研究人員將所有可能的片段視為不同的“短文檔”,然后將這些候選片段的索引進行預處理,并使用相同的檢索模型對其進行排名。除檢索方法外,NCBI提出的框架可以直接計算問題和候選句子之間的余弦相似度,以測量它們之間的相關度,然后選擇標題或摘要中得分最高的句子作為問題的相關片段。
從本發明技術方案的角度來看,這些方法過分依賴于信息檢索技術,而這些技術的排名是基于查詢詞在文檔和整個集合中的分布。由于缺乏對語義的考慮,這些方法往往存在嚴重的缺陷,比如余弦相似度表示相似程度,而不是QA關系。同樣,所有經典IR模型的輸出分數也只能表示在問題/查詢過程中、文檔中、或者整個集合中術語分布的相似性。在確定它們是否具有QA關系時,并沒有考慮它們的語義信息,而語義往往是關鍵性因素。例如,對于諸如“如何治療傳染性單核細胞增多癥”這個生物醫學問題,候選文檔中的一段描述為“傳染性單核細胞增多癥的治療方法是什么?氯喹和類固醇值得嘗試。”顯然,預期的相關片段是后面的句子——“氯喹和類固醇值得嘗試”,而不是前面的“傳染性單核細胞增多癥的治療方法是什么?”因此,包含語義信息對于找到生物醫學問題的相關片段非常重要。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學(北京),未經中國礦業大學(北京)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010910552.1/2.html,轉載請聲明來源鉆瓜專利網。





