[發明專利]數據處理方法、服務器及計算機存儲介質在審
| 申請號: | 201810198710.8 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108520002A | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 張師琲;侯麗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 于志光;郭夢霞 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索結果 數據處理 計算機可讀存儲介質 服務器 搜索 索引文件 索引庫 計算機存儲介質 生成索引文件 查詢對象 得分結果 模糊匹配 模糊文字 輸出顯示 數據建立 文本數據 預設方式 預設 索引 排序 存儲 | ||
本發明公開了一種數據處理方法,該方法包括:對所述文本數據或者其他類型的數據建立索引并生成索引文件,將所述索引文件存儲到索引庫,根據查詢對象對所述索引庫中的索引文件進行搜索,對搜索結果按照搜索評價方法進行評價打分,根據得分結果將所述搜索結果進行排序,將所述得分高于預設閾值的搜索結果按照預設方式進行輸出顯示。本發明還提供一種服務器及計算機可讀存儲介質。本發明提供的數據處理方法、服務器及計算機可讀存儲介質能夠快速針對與模糊文字的搜索,快速實現模糊匹配。
技術領域
本發明涉及數據分析技術領域,尤其涉及一種數據處理方法、服務器及計算機存儲介質。
背景技術
在當今信息爆炸的時代,每個單位或個人都在為信息的快速增長做出了各種貢獻。信息的種類也在不斷的擴展,越來越多的非結構化信息不斷出現,包括企業的各種報表、帳單、電子文檔等等。這些非結構化信息存入數據庫中,很多時候,我們需要在數據庫中檢索,而針對與模糊文字的搜索,直接查詢數據庫的效率是非常慢的。因此,針對模糊文字的搜索,如何提高檢索信息的效率是當下一大亟需解決的問題。
發明內容
有鑒于此,本發明提出一種數據處理方法、服務器及計算機存儲介質,以解決如何的問題。
首先,為實現上述目的,本發明提出一種數據處理方法,該方法包括步驟:
獲取數據庫中的文本數據或者其他類型的數據,對數據庫中的文本數據或者其他類型的數據進行處理;
基于lucene搜索引擎對處理后的所述文本數據或者其他類型的數據建立索引并生成索引文件將所述索引文件存儲到索引庫;
接收用戶輸入的查詢信息,對所述查詢信息進行處理生成查詢對象,根據所述查詢對象對所述索引庫中的索引文件進行搜索,預設的搜索評價模型對搜索結果進行評價打分;及
根據得分結果將所述搜索結果按照分數從高到低的順序進行排序,將所述得分高于預設閾值的搜索結果按照預設方式進行輸出顯示;
其中,所述預設方式為將所述得分結果生成條形圖,并將所述得分結果按照百分比形式輸出顯示,所述預設閾值為40%。
優選地,所述其他類型的數據包括pdf文件數據、office文件數據,所述對數據庫中的文本數據或者其他類型的數據進行處理的處理步驟包括:
將其他類型的數據轉換為文本數據;
將數據庫中的文本數據和所述文本數據按照詞語切分、詞性標注及詞語過濾的步驟進行分詞處理;及
生成分詞結果,將過濾后的詞語作為最終分詞結果,將所述最終分詞結果作為處理后的所述文本數據或者其他類型的數據。
優選地,所述“基于lucene搜索引擎對處理后的所述文本數據或者其他類型的數據建立索引并生成索引文件”的步驟包括:
構造索引庫,設置索引庫的位置,用于存入索引;
構造索引創建器,用于創建索引;及
為分詞后的所述文本數據或者其他類型的數據建立索引,根據不同的文件類型創建相應的文檔描述,并設置相應屬性域的內容。
優選地,對所述查詢信息進行處理生成查詢對象的步驟包括:
對所述查詢信息進行分詞處理,分詞處理的步驟包括:詞語切分、詞性標注及詞語過濾;
對分詞集中的詞語進行同義詞、近義詞轉換,獲得分詞集的同義詞、近義詞集;及
將所述分詞集,同義詞、近義詞集中的詞語作為查詢對象。
優選地,所述搜索評價模型對所述搜索結果進行打分包括如下步驟:
根據第一評分公式獲得本次搜索的第一得分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810198710.8/2.html,轉載請聲明來源鉆瓜專利網。





