[發明專利]應用搜索意圖的識別方法及裝置有效
| 申請號: | 201611207524.3 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN106599278B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 龐偉 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/30 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應用 搜索 意圖 識別 方法 裝置 | ||
1.一種應用搜索意圖的識別方法,其特征在于,所述方法包括:
獲取輸入的應用搜索查詢串以及應用搜索意圖詞典,其中,所述應用搜索意圖詞典是根據歷史應用搜索查詢串以及所述歷史應用搜索查詢串對應的歷史應用下載記錄進行機器自學習而得,且所述應用搜索意圖詞典包括歷史應用搜索查詢串以及所述歷史應用搜索查詢串對應的意圖標簽,其中每個意圖標簽具有一個權重;
當所述應用搜索意圖詞典中含有所述輸入的應用搜索查詢串時,將所述應用搜索意圖詞典中所述輸入的應用搜索查詢串對應的意圖標簽確定為所述輸入的應用搜索查詢串對應的應用搜索意圖;
當所述應用搜索意圖詞典中沒有所述輸入的應用搜索查詢串時,計算所述輸入的應用搜索查詢串與所述應用搜索意圖詞典中各個歷史應用搜索查詢串的語義相似度,并根據預設篩選算法,從語義相似度最大的前n個歷史應用搜索查詢串對應的意圖標簽中篩選出預設個數的意圖標簽,并將篩選出的意圖標簽確定為所述輸入的應用搜索查詢串對應的應用搜索意圖,其中,n為正整數;
在獲取應用搜索意圖詞典之前,所述方法還包括:
獲取用于構建所述應用搜索意圖詞典所需的原始訓練語料,所述原始訓練語料中包括歷史應用搜索查詢串以及所述歷史應用搜索查詢串對應的擴展詞,所述擴展詞是基于其他歷史應用搜索查詢串以及歷史應用下載記錄而得;
對所述原始訓練語料進行預處理,獲取文檔主題生成模型LDA訓練所需的模型訓練語料,其中所述模型訓練語料中包括歷史應用搜索查詢串以及所述歷史應用搜索查詢串對應的目標名詞以及目標動詞,所述目標名詞為構建所述應用搜索意圖詞典所需的類別性意圖標簽,所述目標動詞為構建所述應用搜索意圖詞典所需的功能性意圖標簽;
基于所述模型訓練語料進行LDA模型訓練,獲得文檔主題概率分布以及主題詞項概率分布,所述文檔是每個歷史應用搜索查詢串;
基于所述文檔主題概率分布、所述主題詞項概率分布以及預設概率算法,獲取每個歷史應用搜索查詢串對應的初始意圖標簽以及所述初始意圖標簽的權重,所述初始意圖標簽為所有目標名詞以及所有目標動詞中權重位于前p名的詞項,所述p為正整數;
基于初始意圖標簽與所述初始意圖標簽對應的歷史應用搜索查詢串之間的語義關系,或者基于初始意圖標簽與歷史應用搜索查詢串對應的擴展詞之間的語義關系,更新所述初始意圖標簽的權重;
根據歷史應用搜索查詢串搜索次數的折線函數,從所述初始意圖標簽中篩選出預設數量的意圖標簽,以便基于篩選出的意圖標簽與歷史應用搜索查詢串的對應關系構建所述應用搜索意圖詞典。
2.根據權利要求1所述的方法,其特征在于,所述計算所述輸入的應用搜索查詢串與所述應用搜索意圖詞典中各個歷史應用搜索查詢串的語義相似度,并根據預設篩選算法,從語義相似度最大的前n個歷史應用搜索查詢串對應的意圖標簽中篩選出預設個數的意圖標簽包括:
分別計算所述輸入的應用搜索查詢串與歷史應用搜索查詢串之間的歐氏距離;
從計算出的歐氏距離中篩選出距離最小的前n個歐氏距離;
將所述前n個歐氏距離對應的歷史應用搜索查詢串確定為與所述輸入的應用搜索查詢串相似度最大的前n個歷史應用搜索查詢串;
將前n個歷史應用搜索查詢串對應的歐氏距離進行高斯核平滑運算,并將運算結果作為對應歷史應用搜索查詢串的權重;
基于所述前n個歷史應用搜索查詢串的權重以及所述前n個歷史應用搜索查詢串中每個意圖標簽的權重,針對同一個意圖標簽進行權重合并處理,獲得合并后的意圖標簽以及所述合并后的意圖標簽的權重;
從所述合并后的意圖標簽中篩選出權重最大的前m個意圖標簽,其中m為所述預設個數。
3.根據權利要求1所述的方法,其特征在于,所述獲取用于構建所述應用搜索意圖詞典所需的原始訓練語料包括:
從查詢會話日志中獲取歷史應用搜索查詢串以及基于所述歷史應用搜索查詢串下載的應用;
分別計算每個歷史應用搜索查詢串與下載的應用以及其他歷史應用搜索查詢串的歐氏距離;
針對當前歷史應用搜索查詢串,將最小的前q項歐氏距離對應的下載的應用或者其他歷史應用搜索查詢串確定為所述當前歷史應用搜索查詢串對應的擴展詞,所述q為正整數;
將歷史應用搜索查詢串以及所述歷史應用搜索查詢串對應的擴展詞作為所述原始訓練語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611207524.3/1.html,轉載請聲明來源鉆瓜專利網。





