[發明專利]視頻索引數據的生成方法和系統有效

申請號：	201110406386.2	申請日：	2011-12-08
公開（公告）號：	CN103164403A	公開（公告）日：	2013-06-19
發明（設計）人：	黃石磊;劉軼;程剛;曹文曉	申請（專利權）人：	深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心;北京大學香港科技大學深圳研修院
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	廣州華進聯合專利商標代理有限公司 44224	代理人：	何平
地址：	518057 廣東省深圳市南山區***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	視頻索引數據生成方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

【技術領域】

本發明涉及搜索技術領域，特別是涉及一種視頻索引數據的生成方法和系統。

【背景技術】

隨著網絡技術的發展，搜索功能成了用戶必不可少的工具。基于文本的搜索引擎已經非常普遍。在搜索之前，都要對搜索目標內容建立索引數據，用于和用戶輸入的文字匹配，實現搜索功能。

視頻檢索技術也已經在很多搜索引擎上得到了應用。百度、谷歌的搜索引擎基本上按照視頻文件的名字、標簽進行搜索，以及每個音頻文件所在的網頁對應的文字內容進行檢索。而沒有對視頻以及視頻中的音頻內容(Content)進行正式的處理，并利用這些內容進行有效檢索。

而實際上對于很多的視頻，我們感興趣的是其中某些具體的內容，例如某新聞視頻(30分鐘的新聞聯播)，其對應的文件名和網頁的內容(例如新聞標題，以及重要新聞內容)僅僅是新聞視頻的很小一部分內容，而如果需要查找的內容(例如“招商銀行”，是某財經新聞中提到的具體名字)沒有出現在網頁的內容，而是在視頻或者音頻中出現，那么就會出現查找不到的情況。

【發明內容】

基于此，有必要提供一種視頻索引數據的生成方法和系統。

一種視頻索引數據生成方法，包括如下步驟：

步驟S101，獲取視頻內容和與視頻內容相關的文本內容；

步驟S102，通過預設的關鍵詞，提取所述文本的特征參數，并對所述文本內容進行文本分類，得到所述文本內的分類信息；

步驟S103，根據所述文本內的分類信息，從預設的語言模型庫中選擇對應的拼音語言模型和詞語言模型；

步驟S104，從所述視頻內容中提取音頻數據，并將所述音頻數據分割為多個音頻片段；

步驟S105，提取得到每個所述音頻片段的特征矢量；

步驟S106，根據所述音頻片段的特征矢量，以及預設的說話人模型庫中的說話人模型，得到每個所述音頻片段的說話人分類結果；

步驟S107，根據所述音頻片段對應的說話人分類結果從聲學模型庫中選擇對應的聲學模型；

步驟S108，利用拼音識別器，根據每個所述音頻片段的特征矢量和其對應的所述聲學模型以及所述拼音語言模型和第一發音字典，生成拼音網格；

步驟S109，通過詞解碼器，根據所述拼音網格以及所述詞語言模型和第二發音字典，生成詞網格；

步驟S110，根據所述拼音網格以及所述詞網格計算所述詞網格中各個詞的置信度，得到一個新的詞網格；

步驟S111，根據所述新的詞網格，并結合所述視頻內容，生成視頻索引數據。

其中所述步驟S101具體包括：

本發明一較佳實施例中，所述步驟S101是利用網絡爬蟲抓取帶所述視頻內容的網頁信息，并將所述網頁中的所述視頻內容和與所述視頻內容相關的文本內容分別提取出來；

本發明一較佳實施例中，所述步驟S101中獲取文本內容是先獲取所述網頁的HTML文檔，并把所述HTML文檔轉換為樹形結構；再把所述樹形結構的HTML文檔中正文和預設模板中正文對應部分提取出來，作為所述文本內容；或者以所述HTML文檔中段落為單位考查HTML頁面內容，找到段落標記，將目標語言字符串最長的一段作為正文首選段落；再然后往上下文查找，直到字符串長度小于首選段落長度預設倍數時，停止搜索；將滿足要求的段落匯總為所述文本內容。

所述步驟S102具體包括：

將所述文本內容進行分詞，產生用一系列詞語表示的詞語序列；這里所述分詞使用一個分詞字典以及現有算法實現，例如向最大匹配、逆向最大匹配、雙向最大匹配、最佳匹配法、最少分詞法、詞網格算法等；

根據預設關鍵詞表(也就是對文本分類起關鍵作用的詞)將所述詞語序列轉換為用關鍵詞的一種參數(數值形式)表示的特征矢量；

通過預設的多個文檔分類模型計算特征矢量屬于各個文檔類別概率，并選擇特征矢量對應概率最大的文檔類別作為所述文本內容的類別。所述預設的文檔分類模型就是每一類文檔對應一個特征矢量的分布(例如GMM模型)，這個分布使用多維高斯混合分布來描述每個文檔類型。

所述步驟S103中的所述語言模型庫中包含著和文檔分類模型數量一致的語言模型。也就是說，每一類文檔分類對應一組語言模型(這組語言模型模型包含一個基于拼音的語言模型和一個基于詞語的語言模型)。這里的拼音語言模型和詞語的語言模型都是統計語言模型(Statistical?Language?Model)，就是描述在一個符號(拼音或者詞語)序列中當中，某個符號(音節或者詞語)出現的概率分布的模型。

步驟S104具體包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心;北京大學香港科技大學深圳研修院，未經深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心;北京大學香港科技大學深圳研修院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110406386.2/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：通過圖形編碼訪問網絡信息的方法、客戶端裝置及服務器
下一篇：電子系統及其第二電子裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]視頻索引數據的生成方法和系統有效

專利文獻下載