[發(fā)明專利]一種基于生物醫(yī)學文獻的知識問答系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201811623339.1 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109829042B | 公開(公告)日: | 2021-04-20 |
| 發(fā)明(設(shè)計)人: | 殷緒成;晉贊霞;張博文 | 申請(專利權(quán))人: | 北京科技大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33 |
| 代理公司: | 北京金智普華知識產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 皋吉甫 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 生物醫(yī)學 文獻 知識 問答 系統(tǒng) 方法 | ||
本發(fā)明提供了一種基于生物醫(yī)學文獻的知識問答系統(tǒng)及方法,所述系統(tǒng)包括問題分析模塊、文檔檢索模塊和片段檢索模塊,所述問題分析模塊通過所述文檔檢索模塊與所述片段檢索模塊連接,所述方法首先進行問題分析,組合查詢精煉和查詢擴展技術(shù),通過問題分析獲取問題信息并生成查詢條件,然后進行文檔檢索,利用檢索方法查找相關(guān)醫(yī)學文檔,通過特定規(guī)則將N個排名靠前的文檔的標題和摘要分割成句子合集,形成候選片段合集,最后進行片段檢索,查找可以用來回答醫(yī)學問題的相關(guān)句子并返回給用戶,本發(fā)明融合了SDM,FSDM和PDFR檢索方法,不僅對全局進行檢索,還對不同文本域分配不同的權(quán)重進行檢索,有效地提高了文檔檢索效果。
技術(shù)領(lǐng)域
本發(fā)明涉及知識工程領(lǐng)域、自然語言處理領(lǐng)域以及計算機網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,具體涉及一種基于生物醫(yī)學文獻的知識問答系統(tǒng)及方法。
背景技術(shù)
隨著物質(zhì)生活水平的提高,人們對身體健康的關(guān)注與日俱增,但多數(shù)情況下人們并不能去醫(yī)院及時了解自己的健康癥狀,一方面是因為去醫(yī)院需要花費很多時間、精力,另一方面由于時間限制,人們在就醫(yī)的過程中不能完整的描述自己的癥狀,往往會遺漏一些有關(guān)癥狀的重要信息,因此人們迫切希望可以通過某種便捷途徑及時了解自己的健康狀況。
隨著網(wǎng)絡(luò)上醫(yī)學文獻的增多,人們自助利用醫(yī)學文獻尋求幫助成為一種可能,但人們通過醫(yī)學文獻資源尋求答案的過程較為繁瑣,這個過程主要分為三步“Find,Read,Learn”:第一步,find,即先從海量的醫(yī)學文獻中查找到相關(guān)的文獻,目前已存在這種功能的網(wǎng)站,如pubmed;第二步,Read,即用戶系統(tǒng)閱讀文獻內(nèi)容,找到與自己查詢相關(guān)的段落;第三步,Learn,即理解閱讀相關(guān)段落,學習自己所需要的答案。
然而這個過程不僅對普通大眾,甚至對相關(guān)醫(yī)學工作人員來講都是個極大地挑戰(zhàn)。因此,為了滿足更多用戶需求,本申請設(shè)計了一種通過對生物醫(yī)學文獻進行處理并回答用戶問題的生物醫(yī)學問答系統(tǒng),本系統(tǒng)可以使第一、二步的工作自動進行,從而節(jié)約用戶時間。
自從1999年TREC(Text Retrieval Conference)舉辦的問答系統(tǒng)比賽開始,很多學者就開始致力于研究開放領(lǐng)域的QA系統(tǒng),但針對醫(yī)學特定領(lǐng)域的QA系統(tǒng)研究卻相當有限。MedQA[9]自動分析了大量電子文檔,以便根據(jù)特定的問題生成簡短一致的答案,其答案信息來自各種已發(fā)表的醫(yī)學文獻以及在線的醫(yī)學資源。此外,瑞士有HONqa系統(tǒng),它是由瑞士一家非盈利機構(gòu)HON(Health On the Net Foundation)運營,該系統(tǒng)從該機構(gòu)認證的所有網(wǎng)站來獲取醫(yī)學文獻,這樣保證了醫(yī)學信息的質(zhì)量和可靠性。另外,AskHERMES幫助醫(yī)生從文獻中提取和表達多媒體信息,通過自動檢索、提取、分析和整合來自多個來源的信息(包括醫(yī)學文獻和其他在線信息資源)以制定答案,從而據(jù)此回答相關(guān)臨床問題。
EAGLi系統(tǒng)從MEDLINE摘要中提取答案并返回Gene Ontology(GO)概念列表并使用基于字典的分類器將GO概念分別分配給MEDLINE摘要,該系統(tǒng)根據(jù)統(tǒng)計學原理進行排名:相關(guān)文檔涉及的概念中次數(shù)越多的概念即相關(guān)性越強的概念。
上述研究雖然對醫(yī)學知識問答發(fā)展產(chǎn)生了一定的促進作用,但也存在一些不足之處,如EAGLi系統(tǒng)將從醫(yī)學文獻中提取的醫(yī)學概念作為答案,但醫(yī)學概念并不能很好的回答用戶的問題,并且可能會使沒有醫(yī)學專業(yè)背景的用戶產(chǎn)生困惑。另外,還有一些研究側(cè)重于答案提取和答案生成,致力于生成自然語言描述從而提高可讀性。上述方法普遍忽略了答案的準確性和嚴謹性。然而在醫(yī)學領(lǐng)域,錯誤信息很容易造成誤診,錯誤答案遠比沒有答案更容易對用戶健康產(chǎn)生威脅。因此,在醫(yī)學問答質(zhì)量保證體系中數(shù)據(jù)質(zhì)量是關(guān)鍵影響因素,MEDLINE的文獻顯然比在線資源更可靠。針對上述情況,本專利通過生物醫(yī)學文獻資源結(jié)合各種查詢處理和檢索方法,從而保證文本信息的正確性。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京科技大學,未經(jīng)北京科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811623339.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 從聚合生物醫(yī)學裝置中萃取可萃取材料的裝置、組合件和方法
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學裝置
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學裝置
- 基于生物可吸收基質(zhì)的可植入生物醫(yī)學裝置
- 用于生物醫(yī)學模擬的系統(tǒng)和方法
- 一種生物醫(yī)學知識庫的信息更新方法及系統(tǒng)
- 基于上下文向量圖核的生物醫(yī)學實體關(guān)系分類方法
- 生物醫(yī)學實體展示平臺的構(gòu)建方法、裝置和計算機設(shè)備
- 基于預(yù)訓練模型和自注意力機制的生物醫(yī)學關(guān)系抽取方法
- 基于文獻的癌癥相關(guān)生物醫(yī)學事件數(shù)據(jù)庫構(gòu)建方法





