[發明專利]基于SVM分類模型的用戶查詢信息及意圖提取方法及裝置有效
| 申請號: | 202010600199.7 | 申請日: | 2020-06-29 |
| 公開(公告)號: | CN111488451B | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 楊貽宏 | 申請(專利權)人: | 上海飛旗網絡技術股份有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/332;G06F16/35;G06K9/62 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 楊俊華 |
| 地址: | 200120 上海市浦東新區自由貿*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 svm 分類 模型 用戶 查詢 信息 意圖 提取 方法 裝置 | ||
本發明提供了一種基于SVM分類模型的用戶查詢信息及意圖提取方法及裝置。在執行上述方法時,通過對每個關鍵詞進行挖掘和分類能夠確定出每個關鍵詞的多個近義的目標關鍵詞,避免采用單一關鍵詞進行搜索帶來的歧義和偏差。通過詞向量相似度確定目標主題信息,能夠將終端設備的歷史目標查詢記錄考慮在內,進而確保目標主題信息能夠準確地表達終端設備的意圖。如此,通過對關鍵詞進行挖掘和分類,能夠將不存在邏輯關聯的離散關鍵詞組合成與終端設備相適配的目標主題信息,這樣可以確保得到的搜索結果與用戶的搜索需求和意圖相吻合。
技術領域
本發明涉及大數據健康信息搜索查詢技術領域,具體而言,涉及一種基于SVM分類模型的用戶查詢信息及意圖提取方法及裝置。
背景技術
隨著大健康時代的到來,越來越多的用戶通過網絡進行健康信息的搜索和咨詢。搜索引擎作為常用的網絡搜索工具之一,可以基于用戶輸入的查詢詞句進行健康信息的搜索和展示。但是搜索引擎接收到的查詢詞句大多是簡短且不具有邏輯信息的多個關鍵詞,若直接通過這些關鍵詞進行健康信息的搜索,得到的搜索結果可能與用戶的搜索需求和搜索意圖存在偏差。
發明內容
為了改善上述問題,本發明提供了一種基于SVM分類模型的用戶查詢信息及意圖提取方法及裝置。
所述方案揭示一種基于SVM分類模型的用戶查詢信息及意圖提取方法,應用于搜索引擎,所述方法包括:
獲取終端設備發送的多個關鍵詞以及所述終端設備的設備標識;
將每個關鍵詞輸入預先訓練完成的SVM分類模型進行計算,得到每個關鍵詞對應的類別分組以及所述類別分組下的多個目標關鍵詞;
確定每個類別分組下的每個目標關鍵詞的關鍵詞標識,根據所述關鍵詞標識將每個類別分組進行關聯,得到多個查詢主題信息;
提取每個查詢主題信息的第一詞向量;從預設的運行日志中確定與所述設備標識對應的目標查詢記錄,并提取目標查詢記錄的第二詞向量;
計算每個第一詞向量與所述第二詞向量之間的相似度,將最大相似度對應的查詢主題信息確定為目標主題信息;
基于所述目標主題信息進行搜索,并將搜索結果回傳給所述終端設備。
優選地,所述方法還包括:
計算所述目標主題信息和預設主題信息之間的詞向量相似度;
判斷所述詞向量相似度是否超過設定閾值;
若所述詞向量相似度超過所述設定閾值,則向所述終端設備發送提示信息,以提示所述終端設備基于所述提示信息與目標設備進行通訊。
優選地,確定每個類別分組下的每個目標關鍵詞的關鍵詞標識,根據所述關鍵詞標識將每個類別分組進行關聯,得到多個查詢主題信息,包括:
確定每個目標關鍵詞的詞性信息以及所述詞性信息對應的上游詞性信息和下游詞性信息;
在每個類別分組下查找與每個目標關鍵詞相對應的上游詞性信息對應的上游關鍵詞以及與每個目標關鍵詞相對應的下游詞性信息對應下游關鍵詞;
將每個目標關鍵詞及其對應的上游關鍵詞和下游關鍵詞進行關聯得到所述查詢主題信息。
優選地,從預設的運行日志中確定與所述設備標識對應的目標查詢記錄,包括:
獲取所述運行日志中包括的攜帶有所述設備標識的多個初始查詢記錄;
在預設的信息數據庫中查詢是否存在所述初始查詢記錄的反饋信息;其中,所述反饋信息在所述終端設備接收到初始查詢記錄時反饋給所述預設的信息數據庫;
若存在所述反饋信息,將所述反饋信息對應的初始查詢記錄確定為所述設備標識對應的目標查詢記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海飛旗網絡技術股份有限公司,未經上海飛旗網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010600199.7/2.html,轉載請聲明來源鉆瓜專利網。





