[發(fā)明專利]一種基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201610903691.5 | 申請(qǐng)日: | 2016-10-17 |
| 公開(公告)號(hào): | CN107958005A | 公開(公告)日: | 2018-04-24 |
| 發(fā)明(設(shè)計(jì))人: | 李淑范 | 申請(qǐng)(專利權(quán))人: | 哈爾濱光凱科技開發(fā)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150070 黑龍江省哈爾濱市*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 lucene 醫(yī)療 搜索引擎 服務(wù) 系統(tǒng) 建設(shè) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法,屬于醫(yī)療衛(wèi)生服務(wù)互聯(lián)網(wǎng)技術(shù)領(lǐng)域。
背景技術(shù)
近年來,計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,網(wǎng)絡(luò)上的信息量與日俱增,人們要從如此龐大的信息量中搜索出我們需要的信息成了一項(xiàng)重要而艱巨的任務(wù);搜索引擎在網(wǎng)絡(luò)世界中正扮演著越來越重要的角色;搜索引擎的信息檢索和索引效率是決定一個(gè)搜索引擎性能的關(guān)鍵因素;當(dāng)信息量增大,索引量也隨之增大,這時(shí)搜索引擎服務(wù)器的壓力會(huì)顯著升高,搜索引擎的索引更新效率會(huì)明顯下降。因此,單機(jī)型的搜索引擎系統(tǒng)難以滿足高數(shù)據(jù)量和高并發(fā)量的需求,為了提高搜索引擎的新能,提升系統(tǒng)處理海量數(shù)據(jù)的能力,構(gòu)建分布式的搜索引擎系統(tǒng)是解決問題的有效方法;Hadoop是云計(jì)算領(lǐng)域最具代表性的一個(gè)開源項(xiàng)目,Hadoop為廣大開發(fā)者提供了很好的分布式框架,使開發(fā)者開發(fā)出適合自己的分布式應(yīng)用程序。當(dāng)前,互聯(lián)網(wǎng)上的各種搜索引擎得到了廣大用戶的青睞;然而,隨著各個(gè)領(lǐng)域信息的不斷深入和細(xì)化,通用的搜索引擎已經(jīng)越來越難以滿足不同領(lǐng)域用戶的需求;因此,開發(fā)出針對(duì)特定領(lǐng)域的信息搜索引擎是非常有必要的;眾所周知,醫(yī)療衛(wèi)生事業(yè)是關(guān)系著人類生存、健康的重要事業(yè);隨著科技的發(fā)展,醫(yī)療衛(wèi)生領(lǐng)域的信息化不斷加深,醫(yī)療領(lǐng)域的信息量日漸龐大,人們對(duì)醫(yī)療信息的獲取也日益迫切;如何快速、準(zhǔn)確地獲取第一手的醫(yī)療信息是人們亟待解決的問題。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提出了一種基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法,通過分析搜索引擎的基本原理,采用hadoop的map-reduce編程模型,同時(shí)基于Lucene開源工具包,開發(fā)出一款適合醫(yī)療領(lǐng)域的搜索引擎服務(wù)系統(tǒng)。
本發(fā)明的基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法,所述方法包括以下步驟:
第一步,分析介紹Lucene開發(fā)搜索引擎的相關(guān)技術(shù)和hadoop分布式文件系統(tǒng)的原理;基于hadoop的map-reduce編程模型,設(shè)計(jì)出分布式網(wǎng)絡(luò)爬蟲程序,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息的分布式抓取與檢索;
第二步,將開源中文分詞器加入系統(tǒng)中,在網(wǎng)頁和信息分析時(shí)實(shí)現(xiàn)中文分詞功能,對(duì)文章中的語句進(jìn)行正確有效的切分,達(dá)到預(yù)定的中文分詞效果;同時(shí)加入專門的醫(yī)療詞庫,實(shí)現(xiàn)對(duì)專業(yè)詞匯的分析和切分;
第三步,構(gòu)建搜索引擎信息檢索服務(wù)器,使用戶通過服務(wù)器提供的服務(wù)查詢想要的信息;將heartbeat組件和DRBD技術(shù)進(jìn)行結(jié)合,構(gòu)建高容錯(cuò)性的分布式集群環(huán)境;
第四步,在搜索結(jié)果排序功能模塊中,設(shè)計(jì)新的網(wǎng)頁評(píng)分機(jī)制,在pagerank算法的基礎(chǔ)上結(jié)合主題相關(guān)性判斷,同時(shí)增加專業(yè)詞匯的權(quán)重,提高搜索結(jié)果的準(zhǔn)確性。
本發(fā)明與現(xiàn)有技術(shù)相比較,本發(fā)明的基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法,通過分析搜索引擎的基本原理,采用hadoop的map-reduce編程模型,同時(shí)基于Lucene開源工具包,開發(fā)出一款適合醫(yī)療領(lǐng)域的搜索引擎服務(wù)系統(tǒng)。
具體實(shí)施方式
本發(fā)明的基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法,所述方法包括以下步驟:
第一步,分析介紹Lucene開發(fā)搜索引擎的相關(guān)技術(shù)和hadoop分布式文件系統(tǒng)的原理;基于hadoop的map-reduce編程模型,設(shè)計(jì)出分布式網(wǎng)絡(luò)爬蟲程序,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息的分布式抓取與檢索;
第二步,將開源中文分詞器加入系統(tǒng)中,在網(wǎng)頁和信息分析時(shí)實(shí)現(xiàn)中文分詞功能,對(duì)文章中的語句進(jìn)行正確有效的切分,達(dá)到預(yù)定的中文分詞效果;同時(shí)加入專門的醫(yī)療詞庫,實(shí)現(xiàn)對(duì)專業(yè)詞匯的分析和切分;
第三步,構(gòu)建搜索引擎信息檢索服務(wù)器,使用戶通過服務(wù)器提供的服務(wù)查詢想要的信息;將heartbeat組件和DRBD技術(shù)進(jìn)行結(jié)合,構(gòu)建高容錯(cuò)性的分布式集群環(huán)境;
第四步,在搜索結(jié)果排序功能模塊中,設(shè)計(jì)新的網(wǎng)頁評(píng)分機(jī)制,在pagerank算法的基礎(chǔ)上結(jié)合主題相關(guān)性判斷,同時(shí)增加專業(yè)詞匯的權(quán)重,提高搜索結(jié)果的準(zhǔn)確性。
本發(fā)明的基于Lucene的醫(yī)療搜索引擎服務(wù)系統(tǒng)建設(shè)方法,通過分析搜索引擎的基本原理,采用hadoop的map-reduce編程模型,同時(shí)基于Lucene開源工具包,開發(fā)出一款適合醫(yī)療領(lǐng)域的搜索引擎服務(wù)系統(tǒng)。
上述實(shí)施例,僅是本發(fā)明的較佳實(shí)施方式,故凡依本發(fā)明專利申請(qǐng)范圍所述的構(gòu)造、特征及原理所做的等效變化或修飾,均包括于本發(fā)明專利申請(qǐng)范圍內(nèi)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱光凱科技開發(fā)有限公司,未經(jīng)哈爾濱光凱科技開發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610903691.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于Lucene和Solr實(shí)現(xiàn)全文檢索的方法
- 基于Lucene的光譜曲線檢索方法及引擎
- 一種基于海量數(shù)據(jù)類SQL檢索場(chǎng)景的自動(dòng)識(shí)別優(yōu)化方法
- 一種針對(duì)海量數(shù)據(jù)全文檢索場(chǎng)景的實(shí)現(xiàn)方法
- 基于文法網(wǎng)絡(luò)和lucene的語義分析方法
- 一種地理信息要素的檢索方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于Lucene和文法網(wǎng)絡(luò)的聊天機(jī)器人及其實(shí)現(xiàn)方法
- 一種集合Lucene和Hbase的電力數(shù)據(jù)檢索系統(tǒng)
- 一種基于Lucene的預(yù)計(jì)算方法
- 一種實(shí)現(xiàn)Hbase二級(jí)索引的方法
- 內(nèi)容-索引搜索系統(tǒng)和方法
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 搜索引擎的狀態(tài)獲取方法、裝置以及瀏覽器
- 一種瀏覽器中進(jìn)行網(wǎng)頁搜索的方法及裝置
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 通過搜索引擎生成定制化內(nèi)容的方法、系統(tǒng)及搜索引擎
- 通過搜索引擎?zhèn)鬟f信息的方法、系統(tǒng)及搜索引擎
- 搜索引擎的切換方法、裝置以及電子設(shè)備
- 搜索引擎處理方法、裝置、終端及存儲(chǔ)介質(zhì)





