[發明專利]意圖確定模型的訓練方法和裝置有效
| 申請號: | 202110605114.9 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113343028B | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 張水發 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06V10/774;G06K9/62 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 楊凱程 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 意圖 確定 模型 訓練 方法 裝置 | ||
本公開關于意圖確定模型的訓練方法和裝置,所述方法包括:確定搜索詞的搜索結果、搜索次數;確定對搜索結果進行用戶意圖操作第一比例,進行視頻意圖操作第二比例;根據搜索次數、第一比例以及第二比例,確定搜索詞對應的目標樣本標簽;以搜索詞作為樣本生成訓練樣本集;將樣本的特征輸入意圖確定模型得到樣本對應的目標樣本標簽的預測結果,對意圖確定模型進行訓練得到訓練后的意圖確定模型。根據本公開,由于確定的搜索詞對應的目標樣本標簽相對準確,以搜索詞作為樣本生成的訓練樣本集中樣本對應的目標樣本標簽也就相對準確,基于訓練樣本集得到訓練后的意圖確定模型后,根據訓練后的意圖確定模型預測搜索詞對應的意圖標簽也就相對準確。
技術領域
本公開涉及意圖確定模型的確定領域,尤其涉及意圖確定模型的訓練方法、意圖確定模型的訓練裝置、電子設備、計算機可讀存儲介質、計算機程序產品。
背景技術
用戶在網站中輸入搜索詞(query)搜索時,一般會對應三種意圖,一種是用戶意圖,另一種是視頻意圖,第三種是混合意圖,也即對應用戶意圖和視頻意圖。
其中,搜索詞對應用戶意圖是指針對搜索詞對應的用戶進行搜索;搜索詞對應視頻意圖是指針對包含搜索詞對應內容的視頻進行搜索;混合意圖是指既針對搜索詞對應的用戶進行搜索,又針對包含搜索詞對應的視頻進行搜索。
目前的一種是方式是基于用戶針對搜索結果的點擊確定意圖,但是對于長尾詞的效果較差,因為長尾詞作為查詢詞的情況較少,所以針對長尾詞的搜索結果的點擊也就較少,根據較少的點擊確定意圖準確性較低。另一種方式是根據搜索詞的語義確定意圖,但是某些詞匯在網站中是用戶名,針對這種詞匯,基于語義往往會確定為非用戶,從而確定的意圖往往為視頻意圖,導致不能準確地確定出搜索詞的意圖。進而在基于這些未能準確確定對應意圖的搜索詞作為樣本構建訓練樣本集時,基于訓練樣本集訓練得到的模型也就不能準確地預測搜索詞對應的意圖。
發明內容
本公開提供了意圖確定模型的訓練方法、意圖確定模型的訓練裝置、電子設備、計算機可讀存儲介質、計算機程序產品,以至少解決相關技術中的技術問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提出一種意圖確定模型的訓練方法,包括:
確定基于搜索詞進行搜索的搜索結果,以及基于所述搜索詞進行搜索的搜索次數;
確定在基于所述搜索詞進行的多次搜索中,用戶對搜索結果進行操作的總次數、用戶對所述搜索結果進行用戶意圖操作的第一次數以及用戶對所述搜索結果進行視頻意圖操作的第二次數,根據所述第一次數和所述總次數確定第一比例,根據所述第二次數和所述總次數確定第二比例;
根據所述搜索次數、所述第一比例以及所述第二比例,確定所述搜索詞對應的目標樣本標簽,所述目標樣本標簽包括用戶意圖和/或視頻意圖標簽;
以所述搜索詞和所述目標樣本標簽作為樣本生成訓練樣本集;
將所述樣本的特征輸入意圖確定模型,得到所述樣本對應的目標樣本標簽的預測結果,根據所述意圖標簽預測結果和目標樣本標簽,確定損失數據,基于所述損失數據對意圖確定模型進行訓練,得到訓練后的意圖確定模型。
在一個實施例中,基于所述損失數據對意圖確定模型進行訓練的收斂條件至少包括:
所述預測結果的準確率達到準確率閾值,其中,所述預測結果的準確率根據所述預測結果和所述樣本對應的目標樣本標簽確定。
在一個實施例中,所述方法還包括:
獲取至少一個專有名詞,確定所述專有名詞對應的目標樣本標簽包括視頻意圖標簽;
在所述專有名詞中確定被用作用戶名的用戶專有名詞,確定所述用戶專有名詞對應的目標樣本標簽還包括用戶意圖標簽;
其中,所述以所述搜索詞和所述目標樣本標簽作為樣本生成訓練樣本集包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110605114.9/2.html,轉載請聲明來源鉆瓜專利網。





