[發明專利]一種視頻搜索中的查詢詞糾錯方法和裝置有效
| 申請號: | 201710533053.3 | 申請日: | 2017-07-03 |
| 公開(公告)號: | CN107301241B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 孫超博 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/732 | 分類號: | G06F16/732;G06F16/903;G06F16/36 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 搜索 中的 查詢 糾錯 方法 裝置 | ||
本發明提供的視頻搜索中的查詢詞糾錯方法和裝置,對查詢詞進行刪字處理,得到刪字后的字串集合;利用字串集合中的每個詞以及查詢詞,在預先得到的糾錯候選詞詞典中匹配糾錯候選詞;通過這樣簡單的策略覆蓋率了典型錯誤模式,如增字、減字、錯字和亂序等。提高了查詢詞的在線糾錯的準確率。
技術領域
本發明涉及視頻搜索技術領域,更具體地說,涉及一種視頻搜索中的查詢詞糾錯方法和裝置。
背景技術
發現用戶的錯誤輸入,并糾正為符合用戶真實意圖的正確輸入,是搜索引擎對查詢詞(query)進行預處理的一個關鍵步驟。搜索引擎需要針對特定的query,召回與之相關的文檔(doc)。在實際應用中,query中包含的錯誤,如錯字、增字、亂序等,可能使搜索引擎召回大量與用戶真實意圖不符的doc。而query被糾正,一方面用戶的真實意圖被還原,是搜索引擎智能性的體現方式,另一方面則是對檢索和排序算法的重要補充,降低了檢索的難度。統計表明,視頻搜索中10%以上的query是錯誤的。
視頻搜索,作為一種垂直領域的搜索,通常有兩類方法來實現查詢詞糾錯:離線方法和在線方法。離線方法依賴于糾錯對詞典,即“正確query-錯誤query”的映射關系。這些關系或是手工定義的,或來自于對用戶日志的挖掘,雖然可以涵蓋部分錯誤輸入,但這類方法一方面需要大量的人工工作,另一方面這種離線方法的作用范圍具有遲滯性:用戶曾經輸入過才可能被發現并放入糾錯對詞典中。但是由于用戶輸入的多樣性,很多的錯誤模式,是完全無法預知的。而現有的在線方法對查詢詞的的糾錯判別準則過于簡單,發生誤糾的概率較大。
發明內容
有鑒于此,本發明提出一種視頻搜索中的查詢詞糾錯方法和裝置,欲實現準確的對查詢詞進行在線糾錯的目的。
為了實現上述目的,現提出的方案如下:
一種視頻搜索中的查詢詞糾錯方法,包括:
接收用戶輸入的查詢詞;
對所述查詢詞進行刪字處理,得到字串集合;
利用所述字串集合中的每個詞以及所述查詢詞,在預先得到的糾錯候選詞詞典中匹配得到糾錯候選詞;
從所述糾錯候選詞中選出最優糾錯候選詞作為所述查詢詞的糾錯結果。
優選的,所述從所述糾錯候選詞中選出最優糾錯候選詞作為所述查詢詞的糾錯結果具體包括:
利用預先建立的語言模型,對所述糾錯候選詞以及所述查詢詞進行特征提取;
利用預先建立的分類模型,針對匹配得到的每個所述糾錯候選詞,根據對所述糾錯候選詞以及所述查詢詞提取得到的特征,判斷所述糾錯候選詞的合理性是否大于所述查詢詞的合理性;
從合理性大于所述查詢詞的糾錯候選詞中選擇搜索次數最高的糾錯候選詞確定為最優糾錯候選詞,作為所述查詢詞的糾錯結果。
優選的,所述糾錯候選詞詞典的生成過程,包括:
接收用戶輸入的詞語;
將所述詞語作為糾錯候選詞;
對所述詞語進行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對所述詞語刪字處理后的字串集合之間的對應關系。
優選的,提取的所述特征包括:對數似然在每個詞上的平均值、對數似然在每個字上的平均值和/或對數似然在長度為三的窗口上的最小值。
優選的,所述對所述查詢詞進行刪字處理,得到字串集合,具體為:
對所述查詢詞的每個字分別刪除得到字串集合。
一種視頻搜索中的查詢詞糾錯裝置,包括:
接收單元,用于接收用戶輸入的查詢詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710533053.3/2.html,轉載請聲明來源鉆瓜專利網。





