[發明專利]基于電力關鍵詞分詞的數據檢索方法及裝置有效
| 申請號: | 201410565782.3 | 申請日: | 2014-10-22 |
| 公開(公告)號: | CN104281702B | 公開(公告)日: | 2017-07-11 |
| 發明(設計)人: | 蘇雪源;熊軍;莊玉林;蘇華衍;陳輝河;魏云飛 | 申請(專利權)人: | 國家電網公司;廈門億力吉奧信息科技有限公司;國網福建省電力有限公司廈門供電公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市博銳專利事務所44275 | 代理人: | 張明 |
| 地址: | 361000 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 電力 關鍵詞 分詞 數據 檢索 方法 裝置 | ||
技術領域
本發明涉及關鍵詞檢索方法,尤其涉及一種基于電力關鍵詞分詞的數據檢索方法及裝置。
背景技術
對于中文搜索引擎而言,中文分詞作為其核心技術之一。中文分詞技術屬于自然語言處理技術范疇,其應用不僅僅局限于中文搜索引擎,它也是中文信息處理中的一個主要組成部分。中文信息處理是計算機對中文的音、形、義等信息進行處理和加工的過程,它是自然語言處理的一個分支,是一門與計算機科學、語言學、數學、信息學、聲學等多種學科相關聯的綜合性學科。中文分詞的基本方法包括如下三種:基于字符串匹配的分詞方法、基于理解的分詞方法以及基于統計的分詞方法。
基于字符串匹配的分詞方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功識別出一個詞。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大最長匹配和最小最短匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。
基于理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于中文語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。
基于統計的分詞方案,從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字、的相鄰共現概率?;ガF信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閡值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但并不是詞的常用字組。互聯網上的搜索引擎是通過搜索引擎爬蟲技術,根據一定的策略、運用特定的計算機程序從互聯網上抓取新的、公共可訪問的web網頁、圖片和文檔資源,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統,它的處理對象是互聯網網頁,而電網設備全景監測平臺的臺賬數據和監測數據都是大量的存儲在數據庫當中,直接用互聯網上的搜索引擎技術無法實現對用戶所關心的設備或者設備類型進行全文檢索。
電網設備全景監測平臺是跨越輸、變、配、用多個環節的業務場景,集成了智能電網配電自動化、電能質量監測、用電信息采集、狀態監測、生產管理系統等各業務子系統的信息,形成綜集綜合業務、數據信息、可視化技術為一體的多維度、全方位、立體式的全省統一監測平臺,涵蓋的數據體量之巨大,靠現有的把各類檢測系統的查詢菜單簡單組合在一起的方式,雖然查詢速度快,但是用戶需要記憶菜單層級,用戶記憶負擔較大且操作較為繁瑣。又或者是把所有的設備甚至所有的監測系統數據儲存在一張表只用一個菜單查詢,雖然操作相對簡單,但是數據查詢速度很慢。
發明內容
本發明所要解決的技術問題是:提供一種操作簡單、能夠極大地提高數據檢索效率的基于電力關鍵詞分詞的數據檢索方法及裝置。
為了解決上述技術問題,本發明采用的技術方案為:提供一種基于電力關鍵詞分詞的數據檢索方法,包括如下步驟:
S01、在頁面上待輸入的文本框中輸入關鍵詞,其中,所述關鍵詞包括為設備表名、設備類型或者監測主題;
S02、根據輸入的關鍵詞構造單次搜索記錄解析結構對象,并將關鍵詞切分成兩個或兩個以上的關鍵字并形成關鍵字集合;
S03、判斷關鍵字集合內的關鍵字是否滿足與詞庫完全匹配的搜索條件,若關鍵字集合內的關鍵字均存在于詞庫中,則在詞庫中直接獲取與關鍵字關聯的設備表名、設備類型、監測主題及權重信息,并存入搜索記錄解析結構對象,否則執行步驟S04;
S04、判斷搜索詞匯集合內的搜索詞匯是否滿足與詞庫不完全匹配的搜索條件,若關鍵字集合內的關鍵字部分存在于詞庫中,則根據詞庫計算出匹配的關鍵字的權重,并存入搜索記錄解析結構對象,否則執行步驟S05;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網公司;廈門億力吉奧信息科技有限公司;國網福建省電力有限公司廈門供電公司,未經國家電網公司;廈門億力吉奧信息科技有限公司;國網福建省電力有限公司廈門供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410565782.3/2.html,轉載請聲明來源鉆瓜專利網。





