[發明專利]搜索樣本的詞特征提取方法、裝置、設備以及存儲介質有效
| 申請號: | 202011003276.7 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN111950254B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 徐思琪;鐘輝強;陳亮輝;方軍 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/216;G06F40/30;G06F16/35;G06N3/0464;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索 樣本 特征 提取 方法 裝置 設備 以及 存儲 介質 | ||
本申請實施例公開了搜索樣本的詞特征提取方法、裝置、設備以及存儲介質,具體涉及人工智能技術領域,進一步涉及但不限于自然語言處理、大數據等技術領域。該方法的一具體實施方式包括:基于各個搜索樣本的標簽及各個搜索樣本中各個搜索詞的搜索頻次信息,確定篩選后的搜索詞;獲取篩選后的搜索詞的語義向量,以及對篩選后的搜索詞的語義向量進行聚類,得到每個類簇的詞包;將搜索樣本的詞包的特征作為表征模型的輸入,搜索樣本的標簽作為表征模型的訓練目標進行有監督訓練,表征模型的中間層結果作為搜索樣本的詞包的表征特征,通過對搜索詞做篩選和對搜索詞進行聚類,有助于后續對機器學習模型的訓練,提升模型的效果。
技術領域
本申請涉及計算機技術領域,具體涉及人工智能技術領域,進一步涉及但不限于自然語言處理、大數據等技術領域,尤其涉及搜索樣本的詞特征提取方法、裝置、設備以及存儲介質。
背景技術
目前基于搜索引擎搜索樣本的詞特征挖掘方法主要是無監督的。即,首先,給定一個詞典和候選搜索樣本,統計候選搜索樣本中的詞在一段時間內的出現頻次;然后,對每個詞的詞頻從大到小排序,均勻地將詞分為多個詞包;最后,基于詞包,構建詞包特征,其中一個詞包的特征為在頻次統計中出現在該詞包中不同詞的個數。
發明內容
本申請實施例提供了搜索樣本的詞特征提取方法、裝置、設備以及存儲介質。
第一方面,本申請實施例提供了搜索樣本的詞特征提取方法,包括:基于各個搜索樣本的標簽及各個搜索樣本中各個搜索詞的搜索頻次信息,確定篩選后的搜索詞;獲取篩選后的所述搜索詞的語義向量,以及對所述篩選后的搜索詞的語義向量進行聚類,得到每個類簇的詞包;將搜索樣本的詞包的特征作為表征模型的輸入,搜索樣本的標簽作為表征模型的訓練目標進行有監督訓練,將訓練完成的表征模型的至少一個中間層結果作為搜索樣本的詞包的表征特征。
第二方面,本申請實施例提供了搜索樣本的詞特征提取裝置,包括:搜索詞確定模塊,被配置為基于各個搜索樣本的標簽及各個搜索樣本中各個搜索詞的搜索頻次信息,確定篩選后的搜索詞;聚類模塊,被配置為獲取篩選后的所述搜索詞的語義向量,以及對所述篩選后的搜索詞的語義向量進行聚類,得到每個類簇的詞包;表征模型訓練模塊,被配置為將搜索樣本的詞包的特征作為表征模型的輸入,搜索樣本的標簽作為表征模型的訓練目標進行有監督訓練,將訓練完成的表征模型的至少一個中間層結果作為搜索樣本的詞包的表征特征。
第三方面,本申請實施例提出了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執行的指令,指令被至少一個處理器執行,以使至少一個處理器能夠執行如第一方面中任一實現方式描述的方法。
第四方面,本申請實施例提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,計算機指令用于使計算機執行如第一方面中任一實現方式描述的方法。
第五方面,本申請實施例提供了一種計算機程序產品,包括計算機程序,計算機程序在被處理器執行時實現上述第一方面中任一項的方法。
本申請實施例提供的搜索樣本的詞特征提取方法、裝置、設備以及存儲介質,首先基于各個搜索樣本的標簽及各個搜索樣本中各個搜索詞的搜索頻次信息,確定篩選后的搜索詞;之后獲取篩選后的所述搜索詞的語義向量,以及對所述篩選后的搜索詞的語義向量進行聚類,得到每個類簇的詞包;最后將搜索樣本的詞包的特征作為表征模型的輸入,搜索樣本的標簽作為表征模型的訓練目標進行有監督訓練,將訓練完成的表征模型的至少一個中間層結果作為搜索樣本的詞包的表征特征,通過對搜索詞做篩選和對搜索詞進行聚類,有助于后續對機器學習模型的訓練,提升模型的效果。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011003276.7/2.html,轉載請聲明來源鉆瓜專利網。





