[發明專利]一種基于排序學習算法的生物醫學文獻檢索方法有效
| 申請號: | 201810279010.1 | 申請日: | 2018-03-31 |
| 公開(公告)號: | CN108520038B | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 楊志豪;彭鈺瑩;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332 |
| 代理公司: | 大連星海專利事務所有限公司 21208 | 代理人: | 王樹本;徐雪蓮 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 排序 學習 算法 生物醫學 文獻 檢索 方法 | ||
1.一種基于排序學習算法的生物醫學文獻檢索方法,其特征在于包括以下步驟:
步驟1、利用原始查詢進行檢索并提取結果,首先搭建一個信息檢索系統,輸入M組原始查詢,通過檢索后,得到每個查詢對應的前N條查詢結果文檔,再將查詢結果文檔放到一個查詢池中;
步驟2、構建推薦模型對查詢概念進行評級,每個查詢由一個或n個概念組成,需要一個模型來評估在查詢中的每個概念,并對該概念進行評級,具體分成重要概念、基本概念、弱相關概念和無關概念四個等級,然后給四個等級的概念分別賦予四個概率,即重要概念賦予概率3,基本概念賦予概率2,弱相關概念賦予概率1,無關概念賦予概率0;推薦模型確定一個概念在生物醫學領域上是重要的還是不重要的,然后確定是要保持該概念還是移除它,推薦模型需要兩種類型的信息:一是如何將概念映射到一組語義類型中,二是如何評價每個基于語義類型的概念,作為推薦模型是由語義映射工具和加權投票方法兩部分所構建;使用語義映射工具MetaMap將概念映射成行為、臨床藥物、生物體這樣的語義類型,語義映射工具MetaMap依賴于統一醫學語言系統UMLS,將臨床概念映射到不同的語義類型,一些語義類型與搜索任務無關,一些語義類型與搜索任務相關;由于概念會映射到一般和特定類型的混合,僅使用映射得到的這些混合類型還不能直接改進檢索,還需采用加權投票的方法,對語義類型進行投票,來判斷是否該概念對搜索任務表現重要,具體概念評級通過公式(1)進行描述,
式中Rate表示概率,i表示任意概念concept,分段函數a=-2,b=0,c=5,sum表示權重和,weight表示權重,Important表示重要,Essential表示基本,Weak表示弱相關,Irrelevant表示無關;
步驟3、構建查詢優化模型并對原始查詢進行細化,給定一個原始查詢經過構建查詢優化模型后得到的評級結果,并對原始查詢進行細化,若該概念被評為無關概念,則從原始查詢中刪除該概念,若該概念被評為弱相關概念,則減少原始查詢中該概念的權重,若該概念被評為基本概念,則保持原始查詢中該概念的權重不變,若該概念被評為重要概念,則增加原始查詢中該概念的權重,具體包括以下子步驟:
(a)刪除無關概念,對每個文檔進行打分并采用公式(2)進行描述,
式中,Score表示分數,d表示文檔,Q表示查詢,t表示查詢Q中的無關概念項,qtw表示Q中的單項權重,w(t,d)表示文檔d中的單項權重;
(b)減少弱相關概念的權重,對每個文檔進行打分并采用公式(3)進行描述,
式中,Qr表示減少弱相關概念項的集合,wr表示減少弱相關概念項的權重;
(c)保持基本概念權重不變;
(d)增加重要概念的權重,對每個文檔進行打分并采用公式(4)進行描述,
式中,Qb表示增加重要概念項的集合,wb表示增加重要概念項的權重;
(e)被評為重要概念在摘要中出現則認為該查詢與這個文檔相關,對每個文檔進行打分并采用公式(5)進行描述,
式中,使用λ來控制摘要和正文之間在權重上的比重問題;
(f)最終評分功能,將這些改進結合在一個評分方程中,對每個文檔進行打分并采用公式(6)進行描述,
式中,wb、wr、λ使用K倍交叉驗證;
步驟4、構建查詢擴展模型并對查詢進行擴展,具體包括以下子步驟:
(a)基于醫學主題詞表MeSH的查詢擴展詞的選擇,在前面加權的基礎上,使用醫學主題詞表MeSH對查詢進行基于本體的擴展,以減少臨床查詢中存在的臨床概念的模糊性,基于醫學主題詞表MeSH的擴展與一般擴展不同,因為它不使用反饋文檔來獲取擴展術語,而是從查詢中提取醫學概念,并使用醫學主題詞表MeSH庫進行擴展,它依賴于每個概念通過推薦模型后的評級結果,只擴展被評級為重要概念,而評為其他三個等級的概念不被展開;
(b)對擴展詞進行排序學習建模,采用的排序學習算法,分別是回歸算法Regression、基于文檔對的算法Ranknet和基于文檔列表的算法LambdaMART,這三種算法在檢索中可以取得好的排序性能,所以將其引用到查詢擴展詞排序模型訓過程中,對擴展詞進行重新排序和加權;
(c)擴展詞的相關性標注,在利用擴展模型得到擴展詞的集合之后,要對擴展詞的相關性進行標注,標注的目的是為了利用排序學習方法訓練基于擴展詞的排序模型,進而對擴展詞重新排序,選擇合適的擴展詞賦予重要概念的權重,擴展詞的相關程度可以通過擴展詞對檢索性能的影響來衡量,在擴展詞的相關性標注中,首先將擴展詞加入原始查詢進行檢索,再將檢索結果與原始查詢檢索得到的結果進行比較,用來判斷該擴展詞是否能提高檢索性能,然后可進行相關性標注,使用平均準確率MAP值對檢索結果進行評價,當把擴展詞加入原始查詢中進行檢索時,若平均準確率MAP值對比原始查詢結果提高,則對該擴展詞標注1,否則為0,相關性標注采用公式(7)進行描述,
式中,MAP表示平均準確率值,t表示擴展詞,q表示原始查詢,Label表示標注結果值;
(d)對擴展詞進行特征選取,為了訓練排序模型,需要對擴展詞進行特征建模,通過不同特征表示擴展詞與原始查詢的相關性,擴展詞的特征包括擴展詞在數據集合中出現的詞頻率、文檔頻率、文本相似度BM25得分、擴展詞與查詢詞共現次數,在模型訓練的過程中,每一個擴展詞都被表示成特征向量的形式;
(e)基于排序學習算法的二次檢索,訓練好排序模型后,排序模型對查詢擴展詞進行重新排序,按照排序對擴展詞賦予不同的權重,將重新加權后的擴展詞加入到原始查詢中形成新查詢,利用新查詢輸入檢索系統進行檢索;
步驟5、融合排序模型,對上述兩種設計方法進行融合:一種通過查詢優化模型執行改進,將通過推薦模型后的查詢概念評級,對其進行細化,刪除或重新加權查詢概念,得到新查詢;另一種是通過查詢擴展模型,執行基于醫學主題詞表MeSH的擴展,將通過推薦模型后的查詢概念評級,只擴展評級為重要的概念,對該查詢概念擴展詞進行排序學習建模,賦予擴展詞合適的權重,然后將權重高的擴展詞加入原始查詢,得到新查詢;除了上述的融合排序模型外,也可以單一通過查詢優化模型或者查詢擴展模型對原始查詢進行改進,從而提高檢索效率,打分采用公式(8)進行描述,
式中,ISR(i)表示文檔i的組合分數,N(i)表示文檔i出現的排名列表的數量,Rk表示排名列表k中的文檔i的排名;
步驟6、利用新查詢進行檢索并提取結果,經過上述三個查詢改進模型,可以得到改進后的新查詢,將新查詢輸入檢索系統,能得到精準的查詢結果文檔,從而提高檢索效率;實驗采用文本檢索會議TREC2015年評測的數據集,將查詢分為訓練集、驗證集、測試集,用于排序學習模型的訓練,針對三種排序學習算法進行擴展詞排序模型的訓練,訓練后的排序模型用于擴展詞的加權,生物醫學文獻預處理部分,采用波特詞干算法進行詞干化處理,使用停用詞表對數據集去停用詞,采用平均準確率MAP、準確率P@k、歸一化累計折損NDCG@k三種評價指標對實驗結果進行評價。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810279010.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種光伏發電系統用太陽能電池板
- 下一篇:一種石材拋光、結晶、研磨、清潔墊





