[發明專利]一種視頻內容自動生成方法和系統在審

申請號：	202110202986.0	申請日：	2021-02-24
公開（公告）號：	CN112992116A	公開（公告）日：	2021-06-18
發明（設計）人：	不公告發明人	申請（專利權）人：	北京中科深智科技有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/033
代理公司：	暫無信息	代理人：	暫無信息
地址：	100000 北京市豐臺區航***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種視頻內容自動生成方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種視頻內容自動生成方法，其特征在于，具體步驟包括：

1)將輸入數據生成為故事內容；

2)將文本形式的所述故事內容合成為具有指定角色聲音特征的朗讀音頻；

3)將所述朗讀音頻作為面部動畫合成模型的輸入，由所述朗讀音頻驅動角色面部動畫并生成面部動畫視頻；

步驟1)中，將輸入數據生成為所述故事內容的具體方法步驟包括：

1.1)給定一起始單詞；

1.2)將所述起始單詞轉換為可表征所述起始單詞的詞向量；

1.3)根據關聯所述起始單詞的所述詞向量，計算詞匯表中的每個單詞可作為所述起始單詞的下一個單詞的概率；

1.4)選擇概率值最大的單詞作為新詞加入到所述起始單詞的尾部，與所述起始單詞形成為新的詞序列；

1.5)提取所述詞序列中的排序最末的一個單詞，并將提取的所述單詞作為給定的所述起始單詞并重復步驟1.2)-步驟1.4)，形成多個所述詞序列；

1.6)按照詞序列形成時間由早到晚將各所述詞序列拼接形成為文本形式的所述故事內容。

2.根據權利要求1所述的視頻內容自動生成方法，其特征在于，步驟2)中，將文本形式的所述故事內容合成為具有指定角色聲音特征的朗讀音頻的具體方法步驟包括：

2.1)分析輸入的所述故事內容的文本句子結構，以鑒別出文本語言，并對輸入文本進行子句切分；

2.2)對切分的所述子句進行文本正則化處理；

2.3)將經正則化處理后的子句文本轉換為音素；

2.4)對所述子句進行韻律預測；

2.5)將所述子句的音素和韻律綜合形成為語言信息；

2.6)通過預設的時長模型確定所述子句中的每個文字的發音時長；

2.7)通過聲學模型將所述語言信息轉換為所述指定角色的聲音特征；

2.8)通過聲碼器將所述聲音特征轉換為聲音并輸出。

3.一種視頻內容自動生成系統，可實現如權利要求1-2任意一項所述的視頻內容自動生成方法，其特征在于，所述視頻內容自動生成系統包括：

故事內容生成模塊，用于將輸入數據生成為故事內容；

音頻合成模塊，連接故事內容生成模塊，用于將文本形式的故事內容合成為具有指定角色聲音特征的朗讀音頻；

面部動畫合成模塊，連接音頻合成模塊，用于將朗讀音頻作為面部動畫合成模型的輸入，由朗讀音頻驅動角色面部動畫并生成面部動畫視頻。

4.根據權利要求3所述的視頻內容自動生成系統，其特征在于，所述故事內容生成模塊中具體包括：

起始單詞給定單元，用于提供給用戶給定一起始單詞；

單詞轉換單元，連接所述起始單詞給定單元，用于將所述起始單詞轉換為可表征該所述起始單詞的詞向量；

單詞預測單元，連接所述單詞轉換單元，用于根據關聯該所述起始單詞的所述詞向量，計算詞匯表中的每個單詞可作為所述起始單詞的下一個單詞的概率；

單詞選定單元，連接所述單詞預測單元，用于從概率計算結果中自動選擇概率值最大的所述單詞作為可加入到所述起始單詞尾部的新詞；

新詞加入單元，連接所述單詞選定單元，用于將所述新詞加入到所述起始單詞的尾部；

詞序列形成單元，連接所述起始單詞給定單元和所述新詞加入單元，用于將加入到所述起始單詞的尾部的所述新詞和所述起始單詞形成為詞序列并保存；

起始單詞獲取單元，連接所述詞序列形成單元和所述單詞轉換單元，用于從形成的所述詞序列中提取排序最末的一個單詞作為給定的所述起始單詞；

故事內容生成單元，連接所述詞序列形成單元，用于按照詞序列形成時間由早到晚將各所述詞序列拼接形成為文本形式的所述故事內容。

5.根據權利要求3所述的視頻內容自動生成系統，其特征在于，所述音頻合成模塊中具體包括：

句子結構分析單元，用于分析輸入的所述故事內容的文本句子結構，以鑒別出文本語言，并對輸入文本進行子句切分；

文本正則化處理單元，用于對切分的子句進行文本正則化處理；

子句文本轉換單元，連接所述文本正則化處理單元，用于將正則化處理后的子句文本轉換為音素；

韻律預測單元，用于對所述子句進行韻律預測；

子句語言信息生成單元，分別連接所述子句文本轉換單元和所述韻律預測單元，用于將所述子句的音素和韻律綜合形成為語言信息；

發音時長設置單元，用于通過預設的時長模型確定所述子句中的每個文字的發音時長；

語言信息轉換單元，連接所述子句語言信息生成單元，用于通過聲學模型將所述語言信息轉換為所述指定角色的聲音特征并輸出；

聲音特征轉換單元，連接所述語言信息轉換單元，用于通過聲碼器將所述聲音特征轉換為聲音并輸出。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京中科深智科技有限公司，未經北京中科深智科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110202986.0/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統
G10L13-02 .產生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯規則
G10L13-08 .文本分析或文本以外的語音合成參數的產生，例如語義圖翻譯為音素、韻律產生、重音或聲調測定
G10L13-04 ..語音合成系統的零部件，例如合成設備結構或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】