[發(fā)明專利]一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法有效

申請?zhí)枺?/td>	201810279010.1	申請日：	2018-03-31
公開（公告）號：	CN108520038B	公開（公告）日：	2020-11-10
發(fā)明（設(shè)計）人：	楊志豪;彭鈺瑩;林鴻飛	申請（專利權(quán)）人：	大連理工大學(xué)
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/332
代理公司：	大連星海專利事務(wù)所有限公司 21208	代理人：	王樹本;徐雪蓮
地址：	116024 遼***	國省代碼：	遼寧;21
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于排序學(xué)習算法生物醫(yī)學(xué) 文獻檢索方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及數(shù)據(jù)挖掘和搜索引擎技術(shù)領(lǐng)域，一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法，包括以下步驟：(1)利用原始查詢進行檢索并提取結(jié)果，(2)構(gòu)建推薦模型對查詢概念進行評級，(3)構(gòu)建查詢優(yōu)化模型并對原始查詢進行細化，(4)構(gòu)建查詢擴展模型并對查詢進行擴展，(5)融合排序模型，(6)利用新查詢進行檢索并提取結(jié)果。本發(fā)明方法能夠利用生物醫(yī)學(xué)領(lǐng)域的知識庫等資源對用戶提交的原始查詢進行擴展，在擴展中使用了排序算法用于擴展詞匯重要性度量，通過查詢擴展過程對用戶提交的查詢進行了補充和完善，保證了查詢結(jié)果的準確性，進一步滿足了用戶的信息需求。

技術(shù)領(lǐng)域

本發(fā)明涉及一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法，屬于數(shù)據(jù)挖掘和搜索引擎技術(shù)領(lǐng)域。

背景技術(shù)

近年來，隨著生物醫(yī)學(xué)領(lǐng)域的快速發(fā)展，生物醫(yī)學(xué)相關(guān)研究取得了較多有價值的成果，這些成果不僅促成了一些曾經(jīng)看似難以解決的疾病的治療，從更深遠的角度看，也推動了人類對于自身認識的發(fā)展和深入。但是隨著生物醫(yī)學(xué)文獻數(shù)量的飛速增加，相關(guān)信息的數(shù)量也在呈指數(shù)性增加，海量的文獻和信息為生物醫(yī)學(xué)研究者和相關(guān)從業(yè)人員的信息獲取帶來了難題，而傳統(tǒng)的手工信息獲取方式已經(jīng)逐漸變得不再適用，因此，需要借助于信息檢索的技術(shù)和方法，協(xié)助相關(guān)人員獲取所需的信息。

傳統(tǒng)的信息檢索技術(shù)能夠根據(jù)用戶提交的查詢，對文檔進行相關(guān)性排序，并將排序結(jié)果返回給用戶。而直接將傳統(tǒng)的信息檢索方法應(yīng)用于生物醫(yī)學(xué)文獻的檢索任務(wù)中，很難取得較好的檢索性能，其原因在于未能充分的考慮生物醫(yī)學(xué)領(lǐng)域的固有特點，比如生物醫(yī)學(xué)領(lǐng)域具有較多的專業(yè)詞匯，而這些專業(yè)詞匯往往同時存在很多同義詞和縮寫詞的情況。如果能在傳統(tǒng)的信息檢索方法中充分的考慮生物醫(yī)學(xué)領(lǐng)域的特點，將會進一步提高生物醫(yī)學(xué)信息檢索的性能。

查詢擴展技術(shù)是傳統(tǒng)信息檢索領(lǐng)域的關(guān)鍵技術(shù)之一。它能夠在用戶提交的原始查詢的基礎(chǔ)上，根據(jù)用戶的檢索意圖，對查詢進行補充和完善，從而得到更符合用戶檢索意圖的查詢，提高檢索的性能。現(xiàn)有的查詢擴展方法可以分為兩大類：一類是基于文檔集合的查詢擴展方法，這類方法以全部數(shù)據(jù)文檔集合或者部分數(shù)據(jù)文檔集合為研究對象，從中提取與查詢相關(guān)的內(nèi)容，完善原始查詢；另一類是基于外部擴展資源的查詢擴展技術(shù)，外部資源主要包括有詞典資源、檢索系統(tǒng)查詢?nèi)罩荆^文本和維基百科等，很多研究表明利用外部擴展資源完善原始查詢，可以更好的完成查詢擴展任務(wù)，進而提升檢索的性能。

要建立針對于生物醫(yī)學(xué)領(lǐng)域的文獻檢索，首先應(yīng)該了解該領(lǐng)域的特點和資源。在生物醫(yī)學(xué)領(lǐng)域的文獻中存在著大量的專業(yè)詞匯，而這些詞匯又包含了很多同義詞和縮寫詞等復(fù)雜情況，這為檢索系統(tǒng)的建立帶來了巨大的挑戰(zhàn)，多種名稱的情況，如果在檢索中只查詢其中的一個名字，很難檢索到所有相關(guān)的文獻。值得慶幸的是，在生物醫(yī)學(xué)領(lǐng)域還存在著許多固有的知識庫和資源，例如醫(yī)學(xué)主題詞表MeSH，如果能在檢索的過程中充分的利用這些資源，將會對生物醫(yī)學(xué)文獻檢索的性能帶來巨大的提升。

排序是信息檢索中的核心問題，傳統(tǒng)的排序模型大多數(shù)都帶有參數(shù)，為了可以獲得更好的排序性能，需要調(diào)節(jié)這些參數(shù)，參數(shù)調(diào)節(jié)是非常繁瑣的，容易過擬合。而機器學(xué)習技術(shù)已經(jīng)在自動調(diào)節(jié)參數(shù)、多實例融合、避免過擬合上表現(xiàn)出了優(yōu)勢。排序?qū)W習learningto rank是機器學(xué)習與信息檢索相結(jié)合的研究領(lǐng)域，排序?qū)W習算法是一系列用于信息檢索中對文檔排序的監(jiān)督學(xué)習算法的總稱，它的主要特點在于應(yīng)用機器學(xué)習的技術(shù)來解決信息檢索中的排序問題，通過訓(xùn)練集訓(xùn)練排序模型，將訓(xùn)練好的模型應(yīng)用于測試集的排序任務(wù)中，可獲得較好的檢索排序性能。

發(fā)明內(nèi)容

為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明目的是提供一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法，通過該方法能讓用戶獲得準確的生物醫(yī)學(xué)文獻，有效的補充和完善用戶的信息需求。

為了實現(xiàn)上述發(fā)明目的，解決已有技術(shù)中所存在的問題，本發(fā)明采取的技術(shù)方案是：一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法，包括以下步驟：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué)，未經(jīng)大連理工大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810279010.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種光伏發(fā)電系統(tǒng)用太陽能電池板
下一篇：一種石材拋光、結(jié)晶、研磨、清潔墊

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】