[發(fā)明專利]一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法有效
| 申請?zhí)枺?/td> | 201810279010.1 | 申請日: | 2018-03-31 |
| 公開(公告)號: | CN108520038B | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設(shè)計)人: | 楊志豪;彭鈺瑩;林鴻飛 | 申請(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332 |
| 代理公司: | 大連星海專利事務(wù)所有限公司 21208 | 代理人: | 王樹本;徐雪蓮 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 排序 學(xué)習 算法 生物醫(yī)學(xué) 文獻 檢索 方法 | ||
本發(fā)明涉及數(shù)據(jù)挖掘和搜索引擎技術(shù)領(lǐng)域,一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法,包括以下步驟:(1)利用原始查詢進行檢索并提取結(jié)果,(2)構(gòu)建推薦模型對查詢概念進行評級,(3)構(gòu)建查詢優(yōu)化模型并對原始查詢進行細化,(4)構(gòu)建查詢擴展模型并對查詢進行擴展,(5)融合排序模型,(6)利用新查詢進行檢索并提取結(jié)果。本發(fā)明方法能夠利用生物醫(yī)學(xué)領(lǐng)域的知識庫等資源對用戶提交的原始查詢進行擴展,在擴展中使用了排序算法用于擴展詞匯重要性度量,通過查詢擴展過程對用戶提交的查詢進行了補充和完善,保證了查詢結(jié)果的準確性,進一步滿足了用戶的信息需求。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法,屬于數(shù)據(jù)挖掘和搜索引擎技術(shù)領(lǐng)域。
背景技術(shù)
近年來,隨著生物醫(yī)學(xué)領(lǐng)域的快速發(fā)展,生物醫(yī)學(xué)相關(guān)研究取得了較多有價值的成果,這些成果不僅促成了一些曾經(jīng)看似難以解決的疾病的治療,從更深遠的角度看,也推動了人類對于自身認識的發(fā)展和深入。但是隨著生物醫(yī)學(xué)文獻數(shù)量的飛速增加,相關(guān)信息的數(shù)量也在呈指數(shù)性增加,海量的文獻和信息為生物醫(yī)學(xué)研究者和相關(guān)從業(yè)人員的信息獲取帶來了難題,而傳統(tǒng)的手工信息獲取方式已經(jīng)逐漸變得不再適用,因此,需要借助于信息檢索的技術(shù)和方法,協(xié)助相關(guān)人員獲取所需的信息。
傳統(tǒng)的信息檢索技術(shù)能夠根據(jù)用戶提交的查詢,對文檔進行相關(guān)性排序,并將排序結(jié)果返回給用戶。而直接將傳統(tǒng)的信息檢索方法應(yīng)用于生物醫(yī)學(xué)文獻的檢索任務(wù)中,很難取得較好的檢索性能,其原因在于未能充分的考慮生物醫(yī)學(xué)領(lǐng)域的固有特點,比如生物醫(yī)學(xué)領(lǐng)域具有較多的專業(yè)詞匯,而這些專業(yè)詞匯往往同時存在很多同義詞和縮寫詞的情況。如果能在傳統(tǒng)的信息檢索方法中充分的考慮生物醫(yī)學(xué)領(lǐng)域的特點,將會進一步提高生物醫(yī)學(xué)信息檢索的性能。
查詢擴展技術(shù)是傳統(tǒng)信息檢索領(lǐng)域的關(guān)鍵技術(shù)之一。它能夠在用戶提交的原始查詢的基礎(chǔ)上,根據(jù)用戶的檢索意圖,對查詢進行補充和完善,從而得到更符合用戶檢索意圖的查詢,提高檢索的性能。現(xiàn)有的查詢擴展方法可以分為兩大類:一類是基于文檔集合的查詢擴展方法,這類方法以全部數(shù)據(jù)文檔集合或者部分數(shù)據(jù)文檔集合為研究對象,從中提取與查詢相關(guān)的內(nèi)容,完善原始查詢;另一類是基于外部擴展資源的查詢擴展技術(shù),外部資源主要包括有詞典資源、檢索系統(tǒng)查詢?nèi)罩荆^文本和維基百科等,很多研究表明利用外部擴展資源完善原始查詢,可以更好的完成查詢擴展任務(wù),進而提升檢索的性能。
要建立針對于生物醫(yī)學(xué)領(lǐng)域的文獻檢索,首先應(yīng)該了解該領(lǐng)域的特點和資源。在生物醫(yī)學(xué)領(lǐng)域的文獻中存在著大量的專業(yè)詞匯,而這些詞匯又包含了很多同義詞和縮寫詞等復(fù)雜情況,這為檢索系統(tǒng)的建立帶來了巨大的挑戰(zhàn),多種名稱的情況,如果在檢索中只查詢其中的一個名字,很難檢索到所有相關(guān)的文獻。值得慶幸的是,在生物醫(yī)學(xué)領(lǐng)域還存在著許多固有的知識庫和資源,例如醫(yī)學(xué)主題詞表MeSH,如果能在檢索的過程中充分的利用這些資源,將會對生物醫(yī)學(xué)文獻檢索的性能帶來巨大的提升。
排序是信息檢索中的核心問題,傳統(tǒng)的排序模型大多數(shù)都帶有參數(shù),為了可以獲得更好的排序性能,需要調(diào)節(jié)這些參數(shù),參數(shù)調(diào)節(jié)是非常繁瑣的,容易過擬合。而機器學(xué)習技術(shù)已經(jīng)在自動調(diào)節(jié)參數(shù)、多實例融合、避免過擬合上表現(xiàn)出了優(yōu)勢。排序?qū)W習learningto rank是機器學(xué)習與信息檢索相結(jié)合的研究領(lǐng)域,排序?qū)W習算法是一系列用于信息檢索中對文檔排序的監(jiān)督學(xué)習算法的總稱,它的主要特點在于應(yīng)用機器學(xué)習的技術(shù)來解決信息檢索中的排序問題,通過訓(xùn)練集訓(xùn)練排序模型,將訓(xùn)練好的模型應(yīng)用于測試集的排序任務(wù)中,可獲得較好的檢索排序性能。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明目的是提供一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法,通過該方法能讓用戶獲得準確的生物醫(yī)學(xué)文獻,有效的補充和完善用戶的信息需求。
為了實現(xiàn)上述發(fā)明目的,解決已有技術(shù)中所存在的問題,本發(fā)明采取的技術(shù)方案是:一種基于排序?qū)W習算法的生物醫(yī)學(xué)文獻檢索方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810279010.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習效果動態(tài)變化下載學(xué)習數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習服務(wù)的方法
- 漸進式學(xué)習管理方法及漸進式學(xué)習系統(tǒng)
- 輔助學(xué)習的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習的自適應(yīng)移動學(xué)習路徑生成方法
- 一種線上視頻學(xué)習系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習方法、裝置及設(shè)備
- 一種學(xué)習方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習效果評測方法及系統(tǒng)





