[發明專利]一種基于大數據的模糊查詢方法及系統有效
| 申請號: | 201610020415.4 | 申請日: | 2016-01-13 |
| 公開(公告)號: | CN105468792B | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 高軍;田立娜;王可鑫;段文良 | 申請(專利權)人: | 山東合天智匯信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250000 山東省濟南市高新區舜*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 模糊 查詢 方法 系統 | ||
本發明公開了一種基于大數據的模糊查詢方法及系統,設置查詢數據長度的上下閾值,確定需要模糊查詢的數據長度,如果數據長度小于上限閾值,則將上限閾值設置為該數據長度,從每個字符起始將需要模糊查詢的數據以設置的數據長度下限閾值的長度進行切分,形成切分詞組集合;按照每次數據長度下限閾值加1的長度繼續對錄入的數據進行切分,直到長度等于上限閾值,將所有切分后的詞組放入切分詞組集合;對于切分詞組集合中的詞組,從圖數據庫中查詢該詞對應的節點是否存在,存在,則獲取出該節點,不存在,則在圖數據庫中新建該詞對應的節點,創建圖數據庫中節點指向屬性節點的連線;本發明可以實現對數據“精確”模糊查詢,不會出現查詢不到的情況。
技術領域
本發明涉及一種基于大數據的模糊查詢方法及系統。
背景技術
隨著近幾年互聯網的迅猛發展,互聯網變得越來越普及,互聯網上的內容也爆發式增長,人們從互聯網上獲取所需內容的門檻也越來越低,這也催生了眾多的互聯網“淘金者”,從互聯網的海量內容中分析出潛在的、有價值的數據、情報、規律等內容。
無論是在傳統的IT時代,還是在互聯網時代,要開發各種各樣的管理、分析系統,一般都需要模糊查詢,即根據某個詞去查詢包含該詞條的數據。在傳統IT時代,由于數據量不大,我們一般使用關系數據庫存儲數據,要進行模糊查詢,直接使用關系數據庫提供sql語句中的“like”功能即可實現,如我們要查詢包含“中國”這個詞的數據,則直接使用“like‘%中國%’”。而在互聯網時代,由于數據量距大,關系數據庫無法支撐如此海量的內容,所以一般使用類 hadoop軟件搭建大數據平臺處理數據,使用類luncen的技術進行模糊查詢,而luncen并不能實現“精確”模糊查詢,即輸入某些字詞,有時并不能查詢出來。
互聯網時代對數據進行模糊查詢,存在以下問題:
如果采用傳統關系數據庫來處理數據,性能無法支撐,運行極慢,特別是模糊查詢,往往需要很長時間才能返回查詢結果。
采用類luncen技術進行模糊查詢,由于luncen采用分詞算法技術,只能分出詞語,只能按照它分出的詞語查詢,而有時模糊查詢的并不是詞語,而僅僅是緊靠在一起的兩個字,這時候則查詢不出來。
發明內容
本發明為了解決上述問題,提出了一種基于大數據的模糊查詢方法及系統,本發明通過切詞算法,可以實現對數據“精確”模糊查詢,不會出現查詢不到的情況。
為了實現上述目的,本發明采用如下技術方案:
一種基于大數據的模糊查詢方法,包括以下步驟:
(1)設置查詢數據長度的上下閾值,確定需要模糊查詢的數據長度,如果數據長度小于上限閾值,則將上限閾值設置為該數據長度;
(2)從每個字符起始將需要模糊查詢的數據以設置的數據長度下限閾值的長度進行切分,形成切分詞組集合;
(3)按照每次數據長度下限閾值加1的切分長度繼續對錄入的數據進行切分,直到切分長度等于上限閾值,將所有切分后的詞組放入切分詞組集合;
(4)將錄入的詞語數據作為一個數據節點,插入到圖數據庫中,并確定該數據節點的屬性信息;
(5)對于切分詞組集合中的詞組,從圖數據庫中查詢名稱為該詞的分詞節點是否存在,存在,則獲取出該分詞節點,如果不存在,則在圖數據庫中新建該需要模糊查詢的詞語對應的分詞節點,創建圖數據庫中分詞節點指向該詞語的數據節點的連線;
(6)進行模糊查詢時,從圖數據庫中將查詢關鍵字對應的分詞節點所指向的所有數據節點取出。
所述步驟(1)中,查詢數據長度的上限閾值大于等于下限閾值,且所述下限閾值大于等于1。
所述步驟(4)中,節點的屬性信息包括創建時間、地理位置或/和規格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東合天智匯信息技術有限公司,未經山東合天智匯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610020415.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





