[發明專利]一種搜索引擎的建立方法及系統在審
| 申請號: | 201710832395.5 | 申請日: | 2017-09-15 |
| 公開(公告)號: | CN107818130A | 公開(公告)日: | 2018-03-20 |
| 發明(設計)人: | 楊家 | 申請(專利權)人: | 深圳市電陶思創科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市恒申知識產權事務所(普通合伙)44312 | 代理人: | 王利彬 |
| 地址: | 518100 廣東省深圳市寶安區西鄉*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索引擎 建立 方法 系統 | ||
1.一種搜索引擎的建立方法,其特征在于,包括:
收集各信息源實時采集的數據;所述各信息源部署于不同的網絡節點;
將收集到的各信息源的物聯網數據按照預置的標簽類別予以標注,得到標注數據;
根據所述標注數據構建基于行業分詞庫的倒排索引;所述倒排索引包含所述行業分詞庫中各分詞與所述標注數據的對應關系,且意義相近的分詞被索引到相同的文檔數據上;
根據所述倒排索引輸出用于進行目錄檢索和全文語義檢索的檢索接口。
2.如權利要求1所述的建立方法,其特征在于,所述預置的標簽類別包括地域標簽、行業標簽和主題標簽;所述對收集到的各信息源的數據按照預置的標簽類別予以標注,得到標注數據包括:
若初次收集到物聯網數據,則采用聚類算法和協同過濾算法為收集到的物聯網數據生成地域標簽、行業標簽和主題標簽,將生成的各標簽在對應的物聯網數據上進行標注,得到標注數據;
若非初次收集到物聯網數據,則使用標簽標注模型為收集到的物聯網數據進行標簽標注,得到標注數據;所述標簽標注模型采用已生成的標注數據為訓練數據,使用監督的文本分類算法進行訓練。
3.如權利要求1所述的建立方法,其特征在于,所述根據所述標注數據構建基于行業分詞庫的倒排索引包括:
使用深度神經網絡中的雙向循環神經網絡Bi-LSTM和隱馬爾科夫模型HMM對所述標注數據進行中文分詞;
基于行業分詞庫,使用詞向量模型將意義相近的中文分詞索引到相同的文檔數據上,實現對所述標注數據構建倒排索引;所述行業分詞庫利用關鍵詞和關鍵短語提取方法構建,其中包含有與物聯網相關的中文分詞。
4.如權利要求3所述的建立方法,其特征在于,所述使用詞向量模型將意義相近的中文分詞索引到相同的文檔數據上,實現對所述標注數據構建倒排索引之后,還包括:
以生成的倒排索引為主索引;
當檢測到新的標注數據時,利用詞向量模型為新的標注數據生成增量索引;
判斷所述增量索引是否達到預置規模,若達到,則將所述增量索引和所述主索引進行合并,得到新的主索引;
其中,在合并索引完成前若檢測到檢索服務請求,則由所述增量索引和合并之前的主索引提供檢索服務。
5.一種搜索引擎的建立系統,其特征在于,包括:
分布式數據采集單元,用于收集各信息源實時采集的數據;所述各信息源部署于不同的網絡節點;
數據標注單元,用于將收集到的各信息源的數據按照預置的標簽類別予以標注,得到標注數據;
索引生成單元,用于根據所述標注數據構建基于行業分詞庫的倒排索引;所述倒排索引包含所述行業分詞庫中各分詞與所述標注數據的對應關系,且意義相近的分詞被索引到相同的文檔數據上;
檢索接口輸出單元,用于根據所述倒排索引輸出用于進行目錄檢索和全文語義檢索的檢索接口。
6.如權利要求5所述的建立系統,其特征在于,所述分布式數據采集單元包括主節點和若干從節點;
所述從節點,用于根據所述主節點分配的數據采集任務從所述數據采集任務指向的信息源采集數據,并將采集到的物聯網數據發送給所述主節點;
所述主節點,用于:
按照預置收集時間間隔收集數據采集任務;
判斷所述數據采集任務是否有效;
若有效,則判斷是否存儲有所述數據采集任務,若有,則結束收集操作;
若沒有,則存儲所述數據采集任務;
獲取從節點的容量和任務量,根據從節點的容量和任務量分配所述數據采集任務;
接收從節點發送的物聯網數據,將所述物聯網數據發送給所述數據標注單元。
7.如權利要求6所述的建立系統,其特征在于,所述主節點還用于:
判斷當前有數據采集任務的從節點的任務量是否過飽和;
若從節點的任務量過飽和,則增加從節點,并分配數據采集任務給增加的從節點;
若從節點的任務量不飽和,關閉從節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市電陶思創科技有限公司,未經深圳市電陶思創科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710832395.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:查詢可重新開始性
- 下一篇:一種使用二進制字符串來比較行程路徑的方法





