日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]視頻索引數據的生成方法和系統有效

專利信息
申請號: 201110406386.2 申請日: 2011-12-08
公開(公告)號: CN103164403A 公開(公告)日: 2013-06-19
發明(設計)人: 黃石磊;劉軼;程剛;曹文曉 申請(專利權)人: 深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心;北京大學香港科技大學深圳研修院
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 廣州華進聯合專利商標代理有限公司 44224 代理人: 何平
地址: 518057 廣東省深圳市南山區*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 視頻 索引 數據 生成 方法 系統
【說明書】:

【技術領域】

發明涉及搜索技術領域,特別是涉及一種視頻索引數據的生成方法和系統。

【背景技術】

隨著網絡技術的發展,搜索功能成了用戶必不可少的工具。基于文本的搜索引擎已經非常普遍。在搜索之前,都要對搜索目標內容建立索引數據,用于和用戶輸入的文字匹配,實現搜索功能。

視頻檢索技術也已經在很多搜索引擎上得到了應用。百度、谷歌的搜索引擎基本上按照視頻文件的名字、標簽進行搜索,以及每個音頻文件所在的網頁對應的文字內容進行檢索。而沒有對視頻以及視頻中的音頻內容(Content)進行正式的處理,并利用這些內容進行有效檢索。

而實際上對于很多的視頻,我們感興趣的是其中某些具體的內容,例如某新聞視頻(30分鐘的新聞聯播),其對應的文件名和網頁的內容(例如新聞標題,以及重要新聞內容)僅僅是新聞視頻的很小一部分內容,而如果需要查找的內容(例如“招商銀行”,是某財經新聞中提到的具體名字)沒有出現在網頁的內容,而是在視頻或者音頻中出現,那么就會出現查找不到的情況。

【發明內容】

基于此,有必要提供一種視頻索引數據的生成方法和系統。

一種視頻索引數據生成方法,包括如下步驟:

步驟S101,獲取視頻內容和與視頻內容相關的文本內容;

步驟S102,通過預設的關鍵詞,提取所述文本的特征參數,并對所述文本內容進行文本分類,得到所述文本內的分類信息;

步驟S103,根據所述文本內的分類信息,從預設的語言模型庫中選擇對應的拼音語言模型和詞語言模型;

步驟S104,從所述視頻內容中提取音頻數據,并將所述音頻數據分割為多個音頻片段;

步驟S105,提取得到每個所述音頻片段的特征矢量;

步驟S106,根據所述音頻片段的特征矢量,以及預設的說話人模型庫中的說話人模型,得到每個所述音頻片段的說話人分類結果;

步驟S107,根據所述音頻片段對應的說話人分類結果從聲學模型庫中選擇對應的聲學模型;

步驟S108,利用拼音識別器,根據每個所述音頻片段的特征矢量和其對應的所述聲學模型以及所述拼音語言模型和第一發音字典,生成拼音網格;

步驟S109,通過詞解碼器,根據所述拼音網格以及所述詞語言模型和第二發音字典,生成詞網格;

步驟S110,根據所述拼音網格以及所述詞網格計算所述詞網格中各個詞的置信度,得到一個新的詞網格;

步驟S111,根據所述新的詞網格,并結合所述視頻內容,生成視頻索引數據。

其中所述步驟S101具體包括:

本發明一較佳實施例中,所述步驟S101是利用網絡爬蟲抓取帶所述視頻內容的網頁信息,并將所述網頁中的所述視頻內容和與所述視頻內容相關的文本內容分別提取出來;

本發明一較佳實施例中,所述步驟S101中獲取文本內容是先獲取所述網頁的HTML文檔,并把所述HTML文檔轉換為樹形結構;再把所述樹形結構的HTML文檔中正文和預設模板中正文對應部分提取出來,作為所述文本內容;或者以所述HTML文檔中段落為單位考查HTML頁面內容,找到段落標記,將目標語言字符串最長的一段作為正文首選段落;再然后往上下文查找,直到字符串長度小于首選段落長度預設倍數時,停止搜索;將滿足要求的段落匯總為所述文本內容。

所述步驟S102具體包括:

將所述文本內容進行分詞,產生用一系列詞語表示的詞語序列;這里所述分詞使用一個分詞字典以及現有算法實現,例如向最大匹配、逆向最大匹配、雙向最大匹配、最佳匹配法、最少分詞法、詞網格算法等;

根據預設關鍵詞表(也就是對文本分類起關鍵作用的詞)將所述詞語序列轉換為用關鍵詞的一種參數(數值形式)表示的特征矢量;

通過預設的多個文檔分類模型計算特征矢量屬于各個文檔類別概率,并選擇特征矢量對應概率最大的文檔類別作為所述文本內容的類別。所述預設的文檔分類模型就是每一類文檔對應一個特征矢量的分布(例如GMM模型),這個分布使用多維高斯混合分布來描述每個文檔類型。

所述步驟S103中的所述語言模型庫中包含著和文檔分類模型數量一致的語言模型。也就是說,每一類文檔分類對應一組語言模型(這組語言模型模型包含一個基于拼音的語言模型和一個基于詞語的語言模型)。這里的拼音語言模型和詞語的語言模型都是統計語言模型(Statistical?Language?Model),就是描述在一個符號(拼音或者詞語)序列中當中,某個符號(音節或者詞語)出現的概率分布的模型。

步驟S104具體包括:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心;北京大學香港科技大學深圳研修院,未經深圳市北科瑞聲科技有限公司;深港產學研基地產業發展中心;北京大學香港科技大學深圳研修院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110406386.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美午夜精品一区二区三区| 欧美一区二区久久| 久久精品国产精品亚洲红杏| 日本一区二区电影在线观看| 国产偷亚洲偷欧美偷精品 | 国产一区二区在线免费| 欧美精品粉嫩高潮一区二区| 91精品视频在线免费观看| 2023国产精品久久久精品双| 日韩av在线高清| 91精品一区二区在线观看| 国产日韩欧美网站| 欧美色综合天天久久| 99久久精品免费看国产免费粉嫩| 国产精品一区二区三区在线看| 日本五十熟hd丰满| 国产欧美综合一区| 亚洲精品国产91| 精品国产一区二| 91精品高清| 久久99久久99精品免观看软件| 粉嫩久久久久久久极品| 国产欧美精品va在线观看| 国产午夜精品一区二区三区在线观看| 国产在线一卡| 久久人做人爽一区二区三区小说 | 亚洲欧美精品suv| 久久精视频| 91久久免费| 国产一区二区手机在线观看| 国产欧美日韩亚洲另类第一第二页| 欧美激情精品一区| 6080日韩午夜伦伦午夜伦| 四虎久久精品国产亚洲av| 日本一级中文字幕久久久久久| 亚洲欧美国产中文字幕| 国产女人和拘做受视频免费| 国产精品视频99| 日本一区二区三区中文字幕| 亚洲欧美日韩一级| 精品国产免费一区二区三区| 亚洲精品性| 久久精品麻豆| 麻豆9在线观看免费高清1| 午夜一级免费电影| 国产欧美一区二区三区免费| 性夜影院在线观看| 国产精品久久久久久久久久久新郎| 一区二区在线精品| 日本白嫩的18sex少妇hd| 九九热国产精品视频| 欧美一区二区三区久久久| av狠狠干| 男人的天堂一区二区| 久久五月精品| 国产一区二区a| 一级午夜影院| 亚洲欧美一区二| 国产精品综合一区二区三区| 午夜大片男女免费观看爽爽爽尤物| 欧美福利一区二区| 国产午夜精品av一区二区麻豆| 美女被羞羞网站视频软件| 粉嫩久久久久久久极品| 玖玖国产精品视频| 欧美日韩一区二区三区在线观看视频 | 亚洲一二三在线| 国产91一区二区在线观看| 国产原创一区二区 | 国产精品高潮呻吟三区四区| 强制中出し~大桥未久10在线播放| 99re热精品视频国产免费| 欧美午夜看片在线观看字幕| 91国产在线看| 91精品久久天干天天天按摩| 国产一区在线视频观看| 久久亚洲精品国产一区最新章节| 亚洲欧美日韩国产综合精品二区| 99国产精品99久久久久久粉嫩| 四虎国产永久在线精品| 浪潮av色| 欧美日韩高清一区二区|