[發(fā)明專利]應(yīng)用搜索意圖的識別方法、裝置、應(yīng)用搜索方法和服務(wù)器有效
| 申請?zhí)枺?/td> | 201611246921.1 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106649818B | 公開(公告)日: | 2020-05-15 |
| 發(fā)明(設(shè)計(jì))人: | 龐偉 | 申請(專利權(quán))人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F40/284 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 權(quán)鮮枝;何立春 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 應(yīng)用 搜索 意圖 識別 方法 裝置 服務(wù)器 | ||
1.一種應(yīng)用搜索意圖的識別方法,其中,包括:
從應(yīng)用搜索引擎的查詢會話日志中獲取各查詢會話中的搜索詞;
根據(jù)各查詢會話中的搜索詞以及預(yù)設(shè)策略,挖掘出各搜索詞的標(biāo)簽體系;
根據(jù)每個(gè)搜索詞的標(biāo)簽體系識別出該搜索詞對應(yīng)的應(yīng)用搜索意圖;
根據(jù)各查詢會話中的搜索詞以及預(yù)設(shè)策略,挖掘出各搜索詞的標(biāo)簽體系包括:
根據(jù)各查詢會話中的搜索詞,獲得訓(xùn)練語料集合;
將訓(xùn)練語料集合輸入至LDA模型中進(jìn)行訓(xùn)練,得到LDA模型輸出的搜索詞-主題概率分布結(jié)果以及主題-關(guān)鍵詞概率分布結(jié)果;
根據(jù)所述搜索詞-主題概率分布結(jié)果和所述主題-關(guān)鍵詞概率分布結(jié)果,計(jì)算得到各搜索詞的標(biāo)簽體系;
所述根據(jù)各查詢會話中的搜索詞,獲得訓(xùn)練語料集合包括:
根據(jù)各查詢會話中的搜索詞,獲得各搜索詞的原始語料;
各搜索詞的原始語料構(gòu)成原始語料集合;對所述原始語料集合進(jìn)行預(yù)處理,獲得訓(xùn)練語料集合;
所述根據(jù)各查詢會話中的搜索詞,獲得各搜索詞的原始語料包括:
根據(jù)各查詢會話中的搜索詞,獲得多個(gè)查詢會話對應(yīng)的搜索詞序列集合;以及,獲得多個(gè)查詢會話對應(yīng)的搜索詞集合;
對所述搜索詞序列集合進(jìn)行訓(xùn)練得到N維的搜索詞向量文件;
對于所搜索詞集合中的每個(gè)搜索詞,根據(jù)所述N維的搜索詞向量文件計(jì)算該搜索詞與其他各搜索詞之間的關(guān)聯(lián)程度;將與該搜索詞的關(guān)聯(lián)程度符合預(yù)設(shè)條件的其他各搜索詞作為該搜索詞的原始語料。
2.如權(quán)利要求1所述的方法,其中,所述獲得多個(gè)查詢會話對應(yīng)的搜索詞序列集合包括:
對于每個(gè)查詢會話,將該查詢會話中的搜索詞按照順序排成一個(gè)序列;如果該序列中的一個(gè)搜索詞對應(yīng)于應(yīng)用下載操作,將所下載的應(yīng)用的名稱插入到該序列中的相應(yīng)搜索詞的后面相鄰位置;得到該查詢會話對應(yīng)的搜索詞序列;
所述獲得多個(gè)查詢會話對應(yīng)的搜索詞集合包括:將多個(gè)查詢會話中的搜索詞的集合作為所述多個(gè)查詢會話對應(yīng)的搜索詞集合。
3.如權(quán)利要求1所述的方法,其中,對所述搜索詞序列集合進(jìn)行訓(xùn)練得到N維的搜索詞向量文件包括:
將所述搜索詞序列集合中的每個(gè)搜索詞作為一個(gè)單詞,利用深度學(xué)習(xí)工具包word2vec對所述搜索詞序列集合進(jìn)行訓(xùn)練,生成N維的搜索詞向量文件。
4.如權(quán)利要求1所述的方法,其中,所述對于所搜索詞集合中的每個(gè)搜索詞,根據(jù)所述N維的搜索詞向量文件計(jì)算該搜索詞與其他各搜索詞之間的關(guān)聯(lián)程度;將與該搜索詞的關(guān)聯(lián)程度符合符合預(yù)設(shè)條件的其他各搜索詞作為該搜索詞的原始語料包括:
利用KNN算法對所述搜索詞集合以及所述N維的搜索詞向量文件進(jìn)行運(yùn)算,根據(jù)所述N維的搜索詞向量文件計(jì)算所述搜索詞集合中的每兩個(gè)搜索詞之間的距離;
對于所述搜索詞集合中的每個(gè)搜索詞,按照與該搜索詞的距離從大到小排序,選取前第一預(yù)設(shè)閾值個(gè)搜索詞作為該搜索詞的原始語料。
5.如權(quán)利要求1所述的方法,其中,所述對所述原始語料集合進(jìn)行預(yù)處理包括:
在所述原始語料集合中,
對于每個(gè)原始語料,對所述原始語料進(jìn)行分詞處理,得到包含多個(gè)詞項(xiàng)的分詞結(jié)果;查找由所述分詞結(jié)果中的相鄰詞項(xiàng)構(gòu)成的短語;保留所述短語、所述分詞結(jié)果中屬于名詞的詞項(xiàng)和屬于動(dòng)詞的詞項(xiàng),作為該原始語料對應(yīng)保留的關(guān)鍵詞。
6.如權(quán)利要求5所述的方法,其中,所述查找由所述分詞結(jié)果中的相鄰詞項(xiàng)構(gòu)成的短語包括:
計(jì)算分詞結(jié)果中的每兩個(gè)相鄰詞項(xiàng)的cPMId值,當(dāng)兩個(gè)相鄰詞項(xiàng)的cPMId值大于第二預(yù)設(shè)閾值時(shí),確定這兩個(gè)相鄰詞項(xiàng)構(gòu)成短語。
7.如權(quán)利要求1-6中任一項(xiàng)所述的方法,其中,所述對所述原始語料集合進(jìn)行預(yù)處理還包括:
將每個(gè)搜索詞的原始物料對應(yīng)保留的關(guān)鍵詞作為該搜索詞的第一階段訓(xùn)練語料;
各搜索詞的第一階段訓(xùn)練語料構(gòu)成第一階段訓(xùn)練語料集合;對所述第一階段訓(xùn)練語料集合中的關(guān)鍵詞進(jìn)行數(shù)據(jù)清洗。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司,未經(jīng)北京奇虎科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611246921.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在線應(yīng)用平臺上應(yīng)用間通信的回調(diào)應(yīng)答方法、應(yīng)用及在線應(yīng)用平臺
- 應(yīng)用使用方法、應(yīng)用使用裝置及相應(yīng)的應(yīng)用終端
- 應(yīng)用管理設(shè)備、應(yīng)用管理系統(tǒng)、以及應(yīng)用管理方法
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 應(yīng)用市場的應(yīng)用搜索方法、系統(tǒng)及應(yīng)用市場
- 使用應(yīng)用的方法和應(yīng)用平臺
- 應(yīng)用安裝方法和應(yīng)用安裝系統(tǒng)
- 使用遠(yuǎn)程應(yīng)用進(jìn)行應(yīng)用安裝
- 應(yīng)用檢測方法及應(yīng)用檢測裝置
- 應(yīng)用調(diào)用方法、應(yīng)用發(fā)布方法及應(yīng)用發(fā)布系統(tǒng)
- 用于意圖挖掘的方法和設(shè)備
- 意圖估計(jì)裝置以及意圖估計(jì)方法
- 意圖識別方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 意圖確認(rèn)方法及裝置
- 搜索意圖識別方法、裝置、電子設(shè)備和存儲介質(zhì)
- 語句多意圖識別方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 對話系統(tǒng)中意圖沖突的解決方法、系統(tǒng)及裝置
- 信息通信網(wǎng)絡(luò)的意圖轉(zhuǎn)譯方法、系統(tǒng)、介質(zhì)及交互接口
- 語音對話的意圖識別方法、系統(tǒng)、設(shè)備及存儲介質(zhì)
- 意圖識別方法、裝置、電子設(shè)備及可讀存儲介質(zhì)





