[發明專利]一種視頻搜索中的查詢詞糾錯方法和裝置有效
| 申請號: | 201710533053.3 | 申請日: | 2017-07-03 |
| 公開(公告)號: | CN107301241B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 孫超博 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/732 | 分類號: | G06F16/732;G06F16/903;G06F16/36 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 搜索 中的 查詢 糾錯 方法 裝置 | ||
1.一種視頻搜索中的查詢詞糾錯方法,其特征在于,包括:
接收用戶輸入的查詢詞;
對所述查詢詞進行刪字處理,得到字串集合;
利用所述字串集合中的每個詞以及所述查詢詞,在預先得到的糾錯候選詞詞典中匹配得到糾錯候選詞;
從所述糾錯候選詞中選出最優糾錯候選詞作為所述查詢詞的糾錯結果;
所述糾錯候選詞詞典的生成過程,包括:
接收用戶輸入的詞語;
將所述詞語作為糾錯候選詞;
對所述詞語進行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對所述詞語刪字處理后的字串集合之間的對應關系。
2.根據權利要求1所述的方法,其特征在于,所述從所述糾錯候選詞中選出最優糾錯候選詞作為所述查詢詞的糾錯結果具體包括:
利用預先建立的語言模型,對所述糾錯候選詞以及所述查詢詞進行特征提取;
利用預先建立的分類模型,針對匹配得到的每個所述糾錯候選詞,根據對所述糾錯候選詞以及所述查詢詞提取得到的特征,判斷所述糾錯候選詞的合理性是否大于所述查詢詞的合理性;
從合理性大于所述查詢詞的糾錯候選詞中選擇搜索次數最高的糾錯候選詞確定為最優糾錯候選詞,作為所述查詢詞的糾錯結果。
3.根據權利要求2所述的方法,其特征在于,提取的所述特征包括:對數似然在每個詞上的平均值、對數似然在每個字上的平均值和/或對數似然在長度為三的窗口上的最小值。
4.根據權利要求1~3任意一項所述的方法,其特征在于,所述對所述查詢詞進行刪字處理,得到字串集合,具體為:
對所述查詢詞的每個字分別刪除得到字串集合。
5.一種視頻搜索中的查詢詞糾錯裝置,其特征在于,包括:
接收單元,用于接收用戶輸入的查詢詞;
處理單元,用于對所述查詢詞進行刪字處理,得到字串集合;
匹配單元,用于利用所述字串集合中的每個詞以及所述查詢詞,在預先得到的糾錯候選詞詞典中匹配得到糾錯候選詞;
分析單元,用于從所述糾錯候選詞中選出最優糾錯候選詞作為所述查詢詞的糾錯結果;以及,
詞典生成單元,用于接收用戶輸入的詞語,將所述詞語作為糾錯候選詞,對所述詞語進行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對所述詞語刪字處理后的字串集合之間的對應關系。
6.根據權利要求5所述的裝置,其特征在于,所述分析單元包括:
特征提取子單元,用于利用預先建立的語言模型,對所述糾錯候選詞以及所述查詢詞進行特征提取;
判斷子單元,用于利用預先建立的分類模型,針對匹配得到的每個所述糾錯候選詞,根據對所述糾錯候選詞以及所述查詢詞提取得到的特征,判斷所述糾錯候選詞的合理性是否大于所述查詢詞的合理性;
選擇子單元,用于從合理性大于所述查詢詞的糾錯候選詞中選擇搜索次數最高的糾錯候選詞確定為最優糾錯候選詞,作為所述查詢詞的糾錯結果。
7.根據權利要求6所述的裝置,其特征在于,提取的所述特征包括:
對數似然在每個詞上的平均值、對數似然在每個字上的平均值和/或對數似然在長度為三的窗口上的最小值。
8.根據權利要求5~7任意一項所述的裝置,其特征在于,所述處理單元,具體用于:
對所述查詢詞的每個字分別刪除得到字串集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710533053.3/1.html,轉載請聲明來源鉆瓜專利網。





