[發明專利]一種數據處理方法、裝置及服務器有效
| 申請號: | 201810593240.5 | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN109033142B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 程曉虎 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2455;G06F16/2453;G06K9/62 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 賈允;肖丁 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 服務器 | ||
本發明公開了一種數據處理方法、裝置及服務器,所述方法包括:獲取查詢數據;從索引數據的關聯詞項集中匹配出所述查詢數據所包含的關聯詞項集,其中,所述關聯詞項集包括關聯出現的多個關聯詞項;確定所述查詢數據所包含的關聯詞項集與所述查詢數據之間的相似度;按照所述相似度的大小對所述關聯詞項集的索引數據所對應的業務數據進行排序;將排序后的業務數據作為所述查詢數據的查詢結果。利用本發明提供的技術方案可以提高匹配到的查詢結果的準確性。
技術領域
本發明涉及互聯網通信技術領域,尤其涉及一種數據處理方法、裝置及服務器。
背景技術
隨著互聯網和人工智能的發展,智能業務系統在人們日常生活得到廣泛的應用。在智能業務系統的應用中,經常會遇到咨詢問題或者獲取知識等需求。為了滿足需求,業務系統往往會提供包括業務相關的常見數據和相應的索引數據的數據庫,以供用戶基于對索引數據的搜索,查找到需要的數據。
目前,業務系統往往需要根據查詢數據與索引數據之間的相似度來匹配出合適的查詢結果。具體的,可以利用業務系統中的大量語料訓練出相似度模型,相似度模型訓練過程中可以基于語料中詞之間的語義關聯來衡量詞之間的相似度。具體的,將與某一詞具有關聯語義的詞來表征該詞的特征,并利用詞的特征之間的距離來計算詞之間的相似度。這種基于語義關聯的相似度的衡量方式往往適合于通用領域的相似度計算,并不適用一些特定的垂直領域,例如“怎么辦理信用卡”和“怎么辦理借記卡”,兩者只有一字之差,但表述的問題卻完全不一樣。利用現有的基于詞之間的語義關聯的相似度的衡量方式中,由于與借記卡和信用卡的語義關聯的詞語相似,導致提取的借記卡和信用卡的特征相似度較高,很難區分出借記卡和信用卡的不同之處,大大增加了匹配出合適查詢結果的難度。因此,需要提供更可靠或更有效的方案。
發明內容
本發明提供了一種數據處理方法、裝置及服務器,可以提高匹配到的查詢結果的準確性。
第一方面,本發明提供了一種數據處理方法,所述方法包括:
獲取查詢數據;
從索引數據的關聯詞項集中匹配出所述查詢數據所包含的關聯詞項集,其中,所述關聯詞項集包括關聯出現的多個關聯詞項;
確定所述查詢數據所包含的關聯詞項集與所述查詢數據之間的相似度;
按照所述相似度的大小對所述關聯詞項集的索引數據所對應的業務數據進行排序;
將排序后的業務數據作為所述查詢數據的查詢結果。
第二方面提供了一種數據處理裝置,所述裝置包括:
查詢數據獲取模塊,用于獲取查詢數據;
關聯詞項集匹配模塊,用于從索引數據的關聯詞項集中匹配出所述查詢數據所包含的關聯詞項集,其中,所述關聯詞項集包括關聯出現的多個關聯詞項;
相似度確定模塊,用于確定所述查詢數據所包含的關聯詞項集與所述查詢數據之間的相似度;
排序模塊,用于按照所述相似度的大小對所述關聯詞項集的索引數據所對應的業務數據進行排序;
查詢結果確定模塊,用于將排序后的業務數據作為所述查詢數據的查詢結果。
第三方面提供了一種數據處理服務器,所述服務器包括處理器和存儲器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執行以實現如第一方面所述的數據處理方法。
第四方面提供了一種計算機可讀存儲介質,所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執行以實現如第一方面所述的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810593240.5/2.html,轉載請聲明來源鉆瓜專利網。





