[發明專利]一種關鍵詞的提取方法及裝置有效
| 申請號: | 201310247434.7 | 申請日: | 2013-06-20 |
| 公開(公告)號: | CN103309993A | 公開(公告)日: | 2013-09-18 |
| 發明(設計)人: | 劉趙杰 | 申請(專利權)人: | 天脈聚源(北京)傳媒科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100007 北京市東城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 提取 方法 裝置 | ||
技術領域
本發明涉及網絡視頻技術領域,尤其涉及一種關鍵詞的提取方法及裝置。
背景技術
隨著網絡視頻業務的迅猛發展,網絡視頻使用越來越普及。
例如,目前的網絡視頻中,為了增強用戶的體驗度,很多網絡視頻網站根據視頻播放的內容為用戶提供字幕信息。例如,通常情況下的字幕信息出現在屏幕的下方。
在實現本發明的過程中,發明人發現現有技術中至少存在如下問題:通常情況下,字幕信息是自動生成的,雖然有對字幕信息的校正過程,但是不能達到百分百準確,從而導致如果從字幕信息中提取的關鍵詞也不準確。因此,現有的針對字幕信息的關鍵詞提取的準確性較差。
發明內容
本發明實施例提供一種關鍵詞的提取方法及裝置,用于實現提供一種關鍵詞的提取方案,提高視頻中的字幕信息中的文字的準確性。
第一方面,本發明實施例提供一種關鍵詞提取方法,包括以下步驟:
獲取節目的字幕信息;
根據已有的關鍵詞對字幕信息進行提取。
可選地,結合上述第一方面,在第一方面的第一實現方式中,所述根據已有的關鍵詞對字幕信息進行提取之前,還包括:
獲取所述節目的相關信息;
從所述節目的相關信息中提取所述已有的關鍵詞。
可選地,結合上述第一方面的第一實現方式,在第一方面的第二實現方式中,獲取所述節目的相關信息,包括:根據所述節目預告單,獲取所述節目的標識信息,根據所述節目的標識信息從網絡中搜索所述節目的相關信息;或者從預設知識庫中獲取所述節目的相關信息。
可選地,結合上述第一方面或其第一實現方式或其第二實現方式,在第一方面的第三實現方式中,所述獲取節目的字幕信息之后,所述根據已有的關鍵詞對字幕信息進行提取之前,還包括:
根據所述已有的關鍵詞判斷所述字幕信息中是否包括有疑似錯誤關鍵詞,所述疑似錯誤關鍵詞與所述已有的關鍵詞包含的字的長度相同,且所述疑似錯誤關鍵詞與所述已有的關鍵詞中不相同的字的長度占總長度的比例小于第一預設閾值;
并確定所述字幕信息中包括有所述疑似錯誤關鍵詞;
所述根據已有的關鍵詞對字幕信息進行提取,包括:
根據所述疑似錯誤關鍵詞確定所述已有的關鍵詞為提取的關鍵詞。
可選地,結合上述第一方面的第三實現方式,在第一方面的第四實現方式中,當確定所述字幕信息中包括有疑似錯誤關鍵詞之后,根據所述疑似錯誤關鍵詞確定所述已有的關鍵詞為提取的關鍵詞之前,還包括:
判斷所述疑似錯誤關鍵詞的置信度是否小于第二預設閾值,所述疑似錯誤關鍵詞在所述字幕信息的所有關鍵詞中的比例是否大于等于第三預設閾值;
并確定所述疑似錯誤關鍵詞的置信度小于所述第二預設閾值,且所述疑似錯誤關鍵詞在所述字幕信息的所有關鍵詞中的比例大于等于所述第三預設閾值。
第二方面,本發明實施例提供一種關鍵詞提取裝置,包括:
獲取模塊,用于獲取節目的字幕信息;
提取模塊,用于根據已有的關鍵詞對字幕信息進行提取。
可選地,結合上述第二方面,在第二方面的第一實現方式中,還包括提取模塊;
所述獲取模塊,還用于在所述提取模塊根據所述已有的關鍵詞對所述字幕信息進行提取之前,獲取所述節目的相關信息;
所述提取模塊,用于從所述節目的相關信息中提取所述已有的關鍵詞。
可選地,結合上述第二方面的第一實現方式,在第二方面的第二實現方式中,所述獲取模塊,具體用于根據所述節目預告單,獲取所述節目的標識信息,根據所述節目的標識信息從網絡中搜索所述節目的相關信息;
或者所述獲取模塊,具體用于從預設知識庫中獲取所述節目的相關信息。
可選地,結合上述第二方面或其第一實現方式或其第二實現方式,在第二方面的第三實現方式中,還包括判斷模塊和確定模塊;
所述判斷模塊,用于根據所述已有的關鍵詞判斷所述字幕信息中是否包括有疑似錯誤關鍵詞,所述疑似錯誤關鍵詞與所述已有的關鍵詞包含的字的長度相同,且所述疑似錯誤關鍵詞與所述已有的關鍵詞中不相同的字的長度占總長度的比例小于第一預設閾值;
所述確定模塊,用于確定所述字幕信息中包括有所述疑似錯誤關鍵詞;
所述提取模塊,具體用于根據所述疑似錯誤關鍵詞確定所述已有的關鍵詞為提取的關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天脈聚源(北京)傳媒科技有限公司,未經天脈聚源(北京)傳媒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310247434.7/2.html,轉載請聲明來源鉆瓜專利網。





