[發明專利]一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統在審
| 申請號: | 202210424428.3 | 申請日: | 2022-04-21 |
| 公開(公告)號: | CN114817644A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 周鳴樂;王然;李敏;李剛;韓德隆;劉一鳴;李旺 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心);齊魯工業大學 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/903;G06F16/9032;G06F16/906;G06F16/951 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 elasticsearch 政府 信息資源 分類 智能化 搜索 方法 系統 | ||
1.一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統,其特征在于,包括以下步驟:
S1:收集政府數據,對政府信息資源按照政府信息內在相關性和與公眾密切相關的主題進行劃分,形成多級分類樹;
S2:搭建Elasticsearch集群,基于Elasticsearch對S1底層數據進行優化,通過RabbitMQ消息中間件異步接入政府信息資源數據;
S3:接受用戶查詢請求并對該請求進行應答;
S4:獲取用戶反饋存入評價列表,并根據評價列表更新多級分類樹;
S5:根據上述方法構建系統,系統分為數據收集清洗單元、存儲單元、服務單元、交互單元以及展示單元。
2.據權力要求1所述的一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統,其特征在于,所述步驟S1包括:
S11:收集政府信息資源,所收集的數據包括內部數據和外部數據;內部數據是政府組織內部產生的當前和歷史數據;外部數據是通過網蟲爬網web所獲得的政府主題相關數據,包括非官方政策解讀、商業報告、評估報告以及其他未經收錄的其他信息;
S12:數據清洗,包括消除內部和外部數據的各種語義沖突;分析內部外部的統一數據,包括同名文件、同名字段、同義詞、同主題詞;消除內部外部數據冗余;統一所有數據的編碼規則;
S13:計算文檔之間的關聯度,按照政府數據的內在聯系、文檔之間的關聯度以及主題進行分類構建多級分類樹。
3.據權力要求1所述的一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統,其特征在于,所述步驟S2包括:
S21:在Elasticsearch集群搭建完成并按照S1形成的多級分類樹搭建搜索引擎的基礎上,將清洗后的各類數據通過RabbitMQ消息中間件異步接入政務公開數據,并將接入的數據轉換為便于檢索的JSON格式文檔并編號;
S22:將多級分類樹包含的文檔使用分詞器劃分并計算每個分詞term的詞頻逆向文件頻率TF-IDF,聚合后將文檔按term存入索引;
S23:查詢構建:基于全文檢索、結構化檢索、匹配主題檢索、關聯檢索、數據類型等構建查詢,根據逆向文件頻率TF-IDF確定排序策略。
4.據權力要求1所述的一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統,其特征在于,所述步驟S3包括:
S31:接收用戶發起的查詢請求并將用戶查詢請求解析為ES-DSL查詢語句;
S32:將ES-DSL查詢語句存入RabbitMQ消息隊列;
S33:Elasticsearch從RabbitMQ獲取任務然后根據ES-DSL查詢語句根據構建的查詢模型進行數據搜索,并按順序返回檢索到的目標數據。
5.據權力要求1所述的一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統,其特征在于,所述步驟S4包括:
S41:歷史查詢記錄從RabbitMQ獲取任務并解析用戶查詢請求,對用戶查詢請求進行記憶存儲;
S42:將用戶對上述檢索數據的反饋發送至歷史查詢記錄,歷史查詢記錄對反饋進行分析并將分析結果存入評價列表,每隔一段時間將更新后的評價列表存入RabbitMQ消息隊列;
S43:Elasticsearch從RabbitMQ獲取任務然后根據評價列表分析結果調整詞頻逆向文件頻率TF-IDF并重新計算相關度權重,根據更新refresh創建新的段,更新政府信息資源多級分類樹。
6.據權力要求1所述的一種基于Elasticsearch的政府信息資源分類與智能化搜索方法和系統,其特征在于,所述步驟S5包括:系統分為數據收集清洗單元、存儲單元、服務單元、交互單元以及展示單元;
數據收集清洗單元:分為數據收集模塊、數據清洗模塊和數據傳輸模塊;用于整合、處理政府信息相關數據;
數據收集模塊:所收集的數據包括內部數據和外部數據;
數據清洗模塊:數據清洗、形成多級分類樹;
數據傳輸模塊:通過RabbitMQ消息中間件對清洗后的數據進行異步傳輸;
存儲單元:分為智能劃分模塊、查詢構建模塊和相關度重構模塊;通過搭建的Elasticsearch集群對政府信息數據進行易于檢索的存儲,存儲按照按照政府信息內在相關性和與公眾密切相關的主題劃分;
其中智能劃分模塊:在Elasticsearch集群構建易于檢索的文件塊并添加索引;
查詢構建模塊:基于多種檢索模型,根據逆向文件頻率TF-IDF確定排序策略;在接收數據檢索模塊發送的ES-DSL查詢語句后根據構建的查詢模型進行數據搜索,并按順序發送被檢索的目標數據到展示單元;
相關度重構模塊:用于調整文檔逆向文件頻率TF-IDF,該模塊在接收已更新的評價表后refresh會根據新的評價表創建新的段,新的提交點會寫入新的段排除舊的段,完成排序策略更新;
服務單元:分為數據檢索模塊,相關度分析模塊和推薦模塊;用于為檢索提供服務支撐;重構分詞term的詞頻逆向文件頻率TF-IDF以便重新計算文檔重要性;針對不同用戶定制個性化推薦;
其中數據檢索模塊:用于接收數據接收模塊發來的搜索對象,將搜索對象以json對象的形式表示并使用自定義解析引擎將搜索對象解析為ES-DSL查詢語句;
相關度分析模塊:用于接收反饋模塊發送的事件;各項檢索數據的點擊、下載,重新檢索,關鍵詞調整等都稱為一個事件;分析數據結合不同事件的權值以及網站信息頁面停留時間的比率、網上服務使用時間比率等信息對檢索相關度權值進行調整,錄入評價列表并按時將更新后的評價列表發送至相關度重構模;
推薦模塊:用于接收信息抽取模塊傳輸的用戶信息,根據用戶的地理位置、歷史記錄、用戶配置文件和web訪問日志進行預推薦和關聯推薦;使用tf-idf方法將用戶訪問日志轉換為向量便于計算;基于用戶聚類的結果,建立預測模型;用樸素的貝葉斯分類器來實現個性化推薦;
交互單元:分為數據接收模塊、信息抽取模塊和反饋模塊;用于接收用戶發起的查詢請求;接收用戶對檢索結果的反饋;獲取用戶配置文件和web訪問日志;其中數據接收模塊:用于接受用戶輸入的查詢條件并生成搜索對象,搜索對象包括用戶輸入的一個或多個組合查詢條件集合;信息抽取模塊:獲取用戶配置文件和web訪問日志;反饋模塊:用于接收用戶對檢索結果的反饋;
展示單元:用于展示用戶查詢結果以及被推薦的個性化信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心);齊魯工業大學,未經山東省計算中心(國家超級計算濟南中心);齊魯工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210424428.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電動牙刷充電杯及刷牙器具
- 下一篇:一種面向真實世界數據的機器學習系統與方法





