[發明專利]數據處理方法、服務器及計算機存儲介質在審
| 申請號: | 201810198710.8 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108520002A | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 張師琲;侯麗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 于志光;郭夢霞 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索結果 數據處理 計算機可讀存儲介質 服務器 搜索 索引文件 索引庫 計算機存儲介質 生成索引文件 查詢對象 得分結果 模糊匹配 模糊文字 輸出顯示 數據建立 文本數據 預設方式 預設 索引 排序 存儲 | ||
1.一種數據處理方法,應用于服務器,其特征在于,所述方法包括步驟:
獲取數據庫中的文本數據或者其他類型的數據,對數據庫中的文本數據或者其他類型的數據進行處理;
基于lucene搜索引擎對處理后的所述文本數據或者其他類型的數據建立索引并生成索引文件,將所述索引文件存儲到索引庫;
接收用戶輸入的查詢信息,對所述查詢信息進行處理生成查詢對象,根據所述查詢對象對所述索引庫中的索引文件進行搜索,預設的搜索評價模型對搜索結果進行評價打分;及
根據得分結果將所述搜索結果按照分數從高到低的順序進行排序,將所述得分高于預設閾值的搜索結果按照預設方式進行輸出顯示;
其中,所述預設方式為將所述得分結果生成條形圖,并將所述得分結果按照百分比形式輸出顯示,所述預設閾值為40%。
2.如權利要求1所述的數據處理方法,其特征在于,所述其他類型的數據包括pdf文件數據、office文件數據,所述對數據庫中的文本數據或者其他類型的數據進行處理的步驟包括:
將其他類型的數據轉換為文本數據;
將數據庫中的文本數據和所述文本數據按照詞語切分、詞性標注及詞語過濾的步驟進行分詞處理;及
生成分詞結果,將過濾后的詞語作為最終分詞結果,將所述最終分詞結果作為處理后的所述文本數據或者其他類型的數據。
3.如權利要求2所述的數據處理方法,其特征在于,所述“基于lucene搜索引擎對處理后的所述文本數據或者其他類型的數據建立索引并生成索引文件”的步驟包括:
構造索引庫,設置索引庫的位置,用于存入索引;
構造索引創建器,用于創建索引;及
為分詞后的所述文本數據或者其他類型的數據建立索引,根據不同的文件類型創建相應的文檔描述,并設置相應屬性域的內容。
4.如權利要求1-3所述的數據處理方法,其特征在于,對所述查詢信息進行處理生成查詢對象的步驟包括:
對所述查詢信息進行分詞處理,分詞處理的步驟包括:詞語切分、詞性標注及詞語過濾;
對分詞集中的詞語進行同義詞、近義詞轉換,獲得分詞集的同義詞、近義詞集;及
將所述分詞集,同義詞、近義詞集中的詞語作為查詢對象。
5.如權利要求4所述的數據處理方法,其特征在于,所述搜索評價模型對所述搜索結果進行打分包括如下步驟:
根據第一評分公式獲得本次搜索的第一得分;
根據最小編輯距離法獲得本次搜索的第二得分;及
獲取所述第一得分及第二得分的平均值,所述平均值作為本次搜索的最終得分。
6.如權利要求5所述的數據處理方法,其特征在于,所述第一評分公式為:
,
其中,所述Score為所述第一得分,q為所述查詢信息,t為所述查詢信息分詞后的每一項,d為去匹配的文檔,函數tf(t in d)表示詞項t在該文檔中出現的頻率,函數idf(t)2表示詞項t在所有文檔中出現的頻率,boost(t.field in d)為激勵因子,boost(t.field ind)*lengthNorm(t.field in d)的值表示此條搜索結果中,給定字段中包含詞項的總數,coord(q,d)表示當一篇文檔中包含的搜索詞越多,則詞文檔打分越高,QueryNorm(q)計算每個查詢條目的方差和。
7.如權利要求6所述的數據處理方法,其特征在于,將所述函數tf(t in d)的值設置為1,去除重復出現的詞對所述第一得分的影響。
8.如權利要求7所述的數據處理方法,其特征在于,所述“根據最小編輯距離法獲得本次搜索的第二得分”的步驟包括:
計算所述查詢對象及所述搜索結果的編輯距離;
獲取最小編輯距離;及
將所述最小編輯距離的值作為所述第二得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810198710.8/1.html,轉載請聲明來源鉆瓜專利網。





