[發明專利]一種基于語義的油田搜索引擎構建方法在審
| 申請號: | 201610078536.4 | 申請日: | 2016-02-03 |
| 公開(公告)號: | CN107038172A | 公開(公告)日: | 2017-08-11 |
| 發明(設計)人: | 佟星;劉陽;張天石;曾鵬;于海斌;顧峰碩;許秀珍 | 申請(專利權)人: | 中國科學院沈陽自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 沈陽科苑專利商標代理有限公司21002 | 代理人: | 許宗富 |
| 地址: | 110016 *** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 油田 搜索引擎 構建 方法 | ||
1.一種基于語義的油田搜索引擎構建方法,其特征在于:包括以下步驟:
首先構建油田本體庫,然后抓取油田領域網絡中的信息,最后構建油田搜索引擎。
2.根據權利要求1所述的基于語義的油田搜索引擎構建方法,其特征在于:所述油田本體庫的構建包括以下過程:
首先,定義類和類的層次,確保類的等級是“is-a”關系;
其次,定義類的屬性和屬性分面,類的屬性根據內在特性、外在特性、局部關系和個體關系四種特性進行分層和定義;屬性分面包括屬性取值類型、允許的取值、取值個數、同義詞和其它屬性取值特征;
最后,實現油田本體庫的構建。
3.根據權利要求1所述的基于語義的油田搜索引擎構建方法,其特征在于:所述抓取油田領域網絡中的信息包括以下步驟:
步驟1:將種子網站作為抓取源頭,選取目標URL,按評分由高到低依次選取若干URL;
步驟2:對蜘蛛線程進行調度,如果緩存中文件數目大于所選取URL的1/2時,蜘蛛線程休眠;否則蜘蛛線程從休眠狀態喚醒,并將URL分配給該蜘蛛線程,開始爬取油田領域網絡中的信息;
步驟3:如果URL分配完畢,則完成抓取過程,蜘蛛線程進入休眠狀態。
4.根據權利要求3所述的基于語義的油田搜索引擎構建方法,其特征在于:所述URL與域名為一一對應關系。
5.根據權利要求1所述的基于語義的油田搜索引擎構建方法,其特征在于:所述構建油田搜索引擎包括以下步驟:
步驟1:對網頁文本進行過濾,把無用廣告和彈出窗口過濾掉;
步驟2:對過濾后的網頁文本進行分詞,并將分詞結果與本體庫中的油田專 業詞匯進行匹配,保留匹配結果;
步驟3:在本體庫中找出與匹配結果同義的關鍵詞,即為關鍵詞的同義詞;
步驟4:將關鍵詞以及關鍵詞的同義詞利用lucene構建倒排索引。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院沈陽自動化研究所,未經中國科學院沈陽自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610078536.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:施工升降機解困裝置
- 下一篇:應用查詢方法和裝置、相似應用檢測方法和裝置





