[發明專利]一種基于語義的油田搜索引擎構建方法在審
| 申請號: | 201610078536.4 | 申請日: | 2016-02-03 |
| 公開(公告)號: | CN107038172A | 公開(公告)日: | 2017-08-11 |
| 發明(設計)人: | 佟星;劉陽;張天石;曾鵬;于海斌;顧峰碩;許秀珍 | 申請(專利權)人: | 中國科學院沈陽自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 沈陽科苑專利商標代理有限公司21002 | 代理人: | 許宗富 |
| 地址: | 110016 *** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 油田 搜索引擎 構建 方法 | ||
技術領域
本發明涉及油田搜索領域,具體地說是一種基于語義的油田搜索引擎構建方法。
背景技術
隨著因特網應用的普及,Internet已發展成為一個巨大的分布式信息空間。由于Internet面向社會和個人,信息的產生不受約束,人類的信息世界呈現出前所未有的復雜現象。Web信息的大容量、異構性、分布性、動態性等特點造成了“信息過載”,如何有效地為用戶提供Web信息檢索已經成為一項重要的研究課題。20世紀60年代以來,信息檢索領域取得了許多研究成果,這些成果被成功地應用在Web上,產生了搜索引擎,例如雅虎,谷歌,百度等。大量各種語言的搜索引擎的出現,使這些成熟的搜索引擎系統也成為信息的寶貴資源,成為人們獲取信息的重要途徑。目前,在網上常見的檢索工具有幾十種,按檢索內容可將其大致分為3類:綜合型檢索工具,主題型檢索工具,特殊型檢索工具。綜合型檢索工具應用的最為廣泛,這種類型檢索工具可以就任何領域、任何關鍵詞的組合進行檢索,但返回結果往往成千上萬,所能夠檢索的內容包羅萬象,而檢索某一特定專業網絡信息的效果不太理想。主題型檢索工具是針對某一特定領域的信息進行檢索,由于每個學科專業都有自己專門的詞匯和用語,主題型檢索工具使用與之相應的標引和檢索語言進行檢索,其效果優于綜合型檢索工具。專題型檢索工具為有效利用網上科技信息、共享最新科技成果的工具,但是,目前網上專題型檢索工具的數量不多,無法滿足社會各個行業工作者的需求。特殊型檢索工具是指用來在網上檢索地址、電話號碼、圖片、地圖等特殊信息的檢索工具,特殊型檢索工具的開發往往受到各方面的限制。
大型油田都具有信息來源分散、數據保密級別高和通用性較低等特點。在開展油氣田數字化建設的程中,由于各個部門的要求的工作性質不一樣,因此 在開發過程中針對許多部門的個別要求建立了應用數據庫和工作文檔,雖然這些信息化的數據都能很好為各個部門服務,但也不可避免的帶來了一些問題,比如信息分布散、資源共享難、建設周期長等。這些問題的存在,嚴重影響和制約了油田科技工作者的工作效率,也使得油氣田資源并沒有得到充分的開發與利用。
在油氣田開發過程中,為了進一步的為地質勘探,油田開發提供科學的方法和強有力的數據,面向油田知識的信息檢索工具的研發和應用已經破在眉睫了。
發明內容
針對現有技術的不足,本發明提供一種能夠方便的實現資源共享,信息整合的基于語義的油田搜索引擎構建方法。
本發明為實現上述目的所采用的技術方案是:
一種基于語義的油田搜索引擎構建方法,包括以下步驟:
首先構建油田本體庫,然后抓取油田領域網絡中的信息,最后構建油田搜索引擎。
所述油田本體庫的構建包括以下過程:
首先,定義類和類的層次,確保類的等級是“is-a”關系;
其次,定義類的屬性和屬性分面,類的屬性根據內在特性、外在特性、局部關系和個體關系四種特性進行分層和定義;屬性分面包括屬性取值類型、允許的取值、取值個數、同義詞和其它屬性取值特征;
最后,實現油田本體庫的構建。
所述抓取油田領域網絡中的信息包括以下步驟:
步驟1:將種子網站作為抓取源頭,選取目標URL,按評分由高到低依次選取若干URL;
步驟2:對蜘蛛線程進行調度,如果緩存中文件數目大于所選取URL的1/2 時,蜘蛛線程休眠;否則蜘蛛線程從休眠狀態喚醒,并將URL分配給該蜘蛛線程,開始爬取油田領域網絡中的信息;
步驟3:如果URL分配完畢,則完成抓取過程,蜘蛛線程進入休眠狀態。
URL與域名為一一對應關系。
所述構建油田搜索引擎包括以下步驟:
步驟1:對網頁文本進行過濾,把無用廣告和彈出窗口過濾掉;
步驟2:對過濾后的網頁文本進行分詞,并將分詞結果與本體庫中的油田專業詞匯進行匹配,保留匹配結果;
步驟3:在本體庫中找出與匹配結果同義的關鍵詞,即為關鍵詞的同義詞;
步驟4:將關鍵詞以及關鍵詞的同義詞利用lucene構建倒排索引。
本發明具有以下有益效果及優點:
本發明提高工作效率,為油田信息提供專業的信息檢索,提高采油廠經濟效益。
附圖說明
圖1是本發明的方法流程圖;
圖2是本發明的抓取流程圖;
圖3是油田本體庫構建圖。
具體實施方式
下面結合附圖及實施例對本發明做進一步的詳細說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院沈陽自動化研究所,未經中國科學院沈陽自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610078536.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:施工升降機解困裝置
- 下一篇:應用查詢方法和裝置、相似應用檢測方法和裝置





