[發明專利]意圖類別的識別方法和裝置有效
| 申請號: | 201810717544.8 | 申請日: | 2018-07-02 |
| 公開(公告)號: | CN109145153B | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 符文君;吳友政 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/78;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 意圖 類別 識別 方法 裝置 | ||
本發明提供了一種意圖類別的識別方法和裝置,該方法包括:對預設時間段內的第一視頻搜索行為數據,挖掘事件實體;將事件實體添加至預先構建的視頻知識圖譜;根據視頻知識圖譜對第二視頻搜索行為數據進行實體類型的標注;對第二視頻搜索行為數據進行意圖類別的標注;將具有實體類型以及意圖類別標注的第二視頻搜索行為數據作為訓練樣本,輸入至預設分類模型進行意圖分類訓練;接收用戶的視頻搜索語句,根據視頻知識圖譜對視頻搜索語句進行實體類型的標注;將具有實體類型標注的視頻搜索語句輸入至已訓練的預設分類模型進行意圖類別的識別,確定視頻搜索語句所屬的意圖類別。本發明能夠提升對輸入的視頻搜索語句的意圖類別分類的準確率。
技術領域
本發明涉及互聯網技術領域,特別是涉及一種意圖類別的識別方法和裝置。
背景技術
目前,在對用戶輸入的查詢語句進行意圖類別(“意圖類別”指的是對用戶輸入的一段用于表達查詢需求的信息,判定用戶想要進行何種類型內容的搜索,即搜用戶之所想)的識別時,主要是通過對查詢語句抽取字特征、詞特征、短語特征,根據這些特征來判斷該查詢語句的意圖類別。但是,發明人在實現本發明的過程中發現,根據查詢語句中的字詞特征、短語特征去判斷該查詢語句對應的用戶意圖類別,沒有利用深層語義特征,存在意圖類別分類準確率較低的問題。
例如用戶輸入:“沈騰買電影票”,“光頭強電影票”,則采用現有技術的方案這兩種輸入都被分類為“購買電影票”的意圖類別,然而用戶搜索“沈騰買電影票”僅僅是想看“沈騰買電影票”相關事件的視頻,用戶搜索“光頭強電影票”則是想要收看“光頭強電影票”相關劇情的視頻片段。
由此可見,現有技術中的意圖類別的識別方案普遍存在著意圖類別分類準確率較低的問題。
發明內容
本發明提供了一種意圖類別的識別方法和裝置,以解決現有技術中的意圖類別的識別方案所存在的意圖類別分類準確率較低的問題。
為了解決上述問題,根據本發明的一個方面,本發明公開了一種意圖類別的識別方法,包括:
對預設時間段內的第一視頻搜索行為數據,挖掘事件實體;
將所述事件實體添加至預先構建的視頻知識圖譜,其中,所述視頻知識圖譜包括多個類型的實體和不同類型實體之間的關系,其中,每個實體具有名稱和屬性;
根據所述視頻知識圖譜對第二視頻搜索行為數據進行實體類型的標注;
對所述第二視頻搜索行為數據進行意圖類別的標注;
將具有實體類型以及意圖類別標注的所述第二視頻搜索行為數據作為訓練樣本,輸入至預設分類模型進行意圖分類訓練;
接收用戶的視頻搜索語句,根據所述視頻知識圖譜對所述視頻搜索語句進行實體類型的標注;
將具有實體類型標注的視頻搜索語句輸入至已訓練的所述預設分類模型進行意圖類別的識別,確定所述視頻搜索語句所屬的意圖類別。
可選地,所述對預設時間段內的第一視頻搜索行為數據,挖掘事件實體,包括:
對預設時間段內的每條第一視頻搜索行為數據進行分詞處理,得到對應所述每條第一視頻搜索行為數據的多個詞項;
根據每個詞項在所述預設時間段內的搜索詞頻,確定所述多個詞項中是否存在熱點詞;
針對存在熱點詞的第一目標視頻搜索行為數據,根據所述第一目標視頻搜索行為數據的熱點詞,確定事件實體的名稱;
從所述名稱中抽取事件要素構成所述事件實體的屬性;
識別所述事件實體與預先構建的視頻知識圖譜中已構建的其他類型的實體之間的關系;
所述將所述事件實體添加至預先構建的視頻知識圖譜,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810717544.8/2.html,轉載請聲明來源鉆瓜專利網。





