[發明專利]一種數據處理方法、裝置及服務器有效

申請號：	201810593240.5	申請日：	2018-06-11
公開（公告）號：	CN109033142B	公開（公告）日：	2021-02-12
發明（設計）人：	程曉虎	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G06F16/22	分類號：	G06F16/22;G06F16/2455;G06F16/2453;G06K9/62
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	賈允;肖丁
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數據處理方法裝置服務器
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種數據處理方法、裝置及服務器，所述方法包括：獲取查詢數據；從索引數據的關聯詞項集中匹配出所述查詢數據所包含的關聯詞項集，其中，所述關聯詞項集包括關聯出現的多個關聯詞項；確定所述查詢數據所包含的關聯詞項集與所述查詢數據之間的相似度；按照所述相似度的大小對所述關聯詞項集的索引數據所對應的業務數據進行排序；將排序后的業務數據作為所述查詢數據的查詢結果。利用本發明提供的技術方案可以提高匹配到的查詢結果的準確性。

技術領域

本發明涉及互聯網通信技術領域，尤其涉及一種數據處理方法、裝置及服務器。

背景技術

隨著互聯網和人工智能的發展，智能業務系統在人們日常生活得到廣泛的應用。在智能業務系統的應用中，經常會遇到咨詢問題或者獲取知識等需求。為了滿足需求，業務系統往往會提供包括業務相關的常見數據和相應的索引數據的數據庫，以供用戶基于對索引數據的搜索，查找到需要的數據。

目前，業務系統往往需要根據查詢數據與索引數據之間的相似度來匹配出合適的查詢結果。具體的，可以利用業務系統中的大量語料訓練出相似度模型，相似度模型訓練過程中可以基于語料中詞之間的語義關聯來衡量詞之間的相似度。具體的，將與某一詞具有關聯語義的詞來表征該詞的特征，并利用詞的特征之間的距離來計算詞之間的相似度。這種基于語義關聯的相似度的衡量方式往往適合于通用領域的相似度計算，并不適用一些特定的垂直領域，例如“怎么辦理信用卡”和“怎么辦理借記卡”，兩者只有一字之差，但表述的問題卻完全不一樣。利用現有的基于詞之間的語義關聯的相似度的衡量方式中，由于與借記卡和信用卡的語義關聯的詞語相似，導致提取的借記卡和信用卡的特征相似度較高，很難區分出借記卡和信用卡的不同之處，大大增加了匹配出合適查詢結果的難度。因此，需要提供更可靠或更有效的方案。

發明內容

本發明提供了一種數據處理方法、裝置及服務器，可以提高匹配到的查詢結果的準確性。

第一方面，本發明提供了一種數據處理方法，所述方法包括：

獲取查詢數據；

從索引數據的關聯詞項集中匹配出所述查詢數據所包含的關聯詞項集，其中，所述關聯詞項集包括關聯出現的多個關聯詞項；

確定所述查詢數據所包含的關聯詞項集與所述查詢數據之間的相似度；

按照所述相似度的大小對所述關聯詞項集的索引數據所對應的業務數據進行排序；

將排序后的業務數據作為所述查詢數據的查詢結果。

第二方面提供了一種數據處理裝置，所述裝置包括：

查詢數據獲取模塊，用于獲取查詢數據；

關聯詞項集匹配模塊，用于從索引數據的關聯詞項集中匹配出所述查詢數據所包含的關聯詞項集，其中，所述關聯詞項集包括關聯出現的多個關聯詞項；

相似度確定模塊，用于確定所述查詢數據所包含的關聯詞項集與所述查詢數據之間的相似度；