[發(fā)明專利]一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710533053.3 | 申請(qǐng)日: | 2017-07-03 |
| 公開(公告)號(hào): | CN107301241B | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計(jì))人: | 孫超博 | 申請(qǐng)(專利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類號(hào): | G06F16/732 | 分類號(hào): | G06F16/732;G06F16/903;G06F16/36 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 視頻 搜索 中的 查詢 糾錯(cuò) 方法 裝置 | ||
1.一種視頻搜索中的查詢?cè)~糾錯(cuò)方法,其特征在于,包括:
接收用戶輸入的查詢?cè)~;
對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;
利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;
從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果;
所述糾錯(cuò)候選詞詞典的生成過(guò)程,包括:
接收用戶輸入的詞語(yǔ);
將所述詞語(yǔ)作為糾錯(cuò)候選詞;
對(duì)所述詞語(yǔ)進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語(yǔ)與所述詞語(yǔ)、對(duì)所述詞語(yǔ)刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果具體包括:
利用預(yù)先建立的語(yǔ)言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提取;
利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;
從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,提取的所述特征包括:對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)似然在每個(gè)字上的平均值和/或?qū)?shù)似然在長(zhǎng)度為三的窗口上的最小值。
4.根據(jù)權(quán)利要求1~3任意一項(xiàng)所述的方法,其特征在于,所述對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合,具體為:
對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。
5.一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,其特征在于,包括:
接收單元,用于接收用戶輸入的查詢?cè)~;
處理單元,用于對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;
匹配單元,用于利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;
分析單元,用于從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果;以及,
詞典生成單元,用于接收用戶輸入的詞語(yǔ),將所述詞語(yǔ)作為糾錯(cuò)候選詞,對(duì)所述詞語(yǔ)進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語(yǔ)與所述詞語(yǔ)、對(duì)所述詞語(yǔ)刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述分析單元包括:
特征提取子單元,用于利用預(yù)先建立的語(yǔ)言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提取;
判斷子單元,用于利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;
選擇子單元,用于從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,提取的所述特征包括:
對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)似然在每個(gè)字上的平均值和/或?qū)?shù)似然在長(zhǎng)度為三的窗口上的最小值。
8.根據(jù)權(quán)利要求5~7任意一項(xiàng)所述的裝置,其特征在于,所述處理單元,具體用于:
對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710533053.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 帶有前處理和后處理的數(shù)據(jù)庫(kù)復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫(kù)查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語(yǔ)言的查詢方法及查詢系統(tǒng)





