[發明專利]數據處理方法、服務器及計算機存儲介質在審

申請號：	201810198710.8	申請日：	2018-03-12
公開（公告）號：	CN108520002A	公開（公告）日：	2018-09-11
發明（設計）人：	張師琲;侯麗	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	深圳市沃德知識產權代理事務所(普通合伙) 44347	代理人：	于志光;郭夢霞
地址：	518000 廣東省深***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	搜索結果數據處理計算機可讀存儲介質服務器搜索索引文件索引庫計算機存儲介質生成索引文件查詢對象得分結果模糊匹配模糊文字輸出顯示數據建立文本數據預設方式預設索引排序存儲
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種數據處理方法，該方法包括：對所述文本數據或者其他類型的數據建立索引并生成索引文件，將所述索引文件存儲到索引庫，根據查詢對象對所述索引庫中的索引文件進行搜索，對搜索結果按照搜索評價方法進行評價打分，根據得分結果將所述搜索結果進行排序，將所述得分高于預設閾值的搜索結果按照預設方式進行輸出顯示。本發明還提供一種服務器及計算機可讀存儲介質。本發明提供的數據處理方法、服務器及計算機可讀存儲介質能夠快速針對與模糊文字的搜索，快速實現模糊匹配。

技術領域

本發明涉及數據分析技術領域，尤其涉及一種數據處理方法、服務器及計算機存儲介質。

背景技術

在當今信息爆炸的時代，每個單位或個人都在為信息的快速增長做出了各種貢獻。信息的種類也在不斷的擴展，越來越多的非結構化信息不斷出現，包括企業的各種報表、帳單、電子文檔等等。這些非結構化信息存入數據庫中，很多時候，我們需要在數據庫中檢索，而針對與模糊文字的搜索，直接查詢數據庫的效率是非常慢的。因此，針對模糊文字的搜索，如何提高檢索信息的效率是當下一大亟需解決的問題。

發明內容

有鑒于此，本發明提出一種數據處理方法、服務器及計算機存儲介質，以解決如何的問題。

首先，為實現上述目的，本發明提出一種數據處理方法，該方法包括步驟：

獲取數據庫中的文本數據或者其他類型的數據，對數據庫中的文本數據或者其他類型的數據進行處理；

基于lucene搜索引擎對處理后的所述文本數據或者其他類型的數據建立索引并生成索引文件將所述索引文件存儲到索引庫；

接收用戶輸入的查詢信息，對所述查詢信息進行處理生成查詢對象，根據所述查詢對象對所述索引庫中的索引文件進行搜索，預設的搜索評價模型對搜索結果進行評價打分；及

根據得分結果將所述搜索結果按照分數從高到低的順序進行排序，將所述得分高于預設閾值的搜索結果按照預設方式進行輸出顯示；

其中，所述預設方式為將所述得分結果生成條形圖，并將所述得分結果按照百分比形式輸出顯示，所述預設閾值為40％。

優選地，所述其他類型的數據包括pdf文件數據、office文件數據，所述對數據庫中的文本數據或者其他類型的數據進行處理的處理步驟包括：

將其他類型的數據轉換為文本數據；

將數據庫中的文本數據和所述文本數據按照詞語切分、詞性標注及詞語過濾的步驟進行分詞處理；及

生成分詞結果，將過濾后的詞語作為最終分詞結果，將所述最終分詞結果作為處理后的所述文本數據或者其他類型的數據。