[發明專利]一種視頻內容自動生成方法和系統在審
| 申請號: | 202110202986.0 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112992116A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 北京中科深智科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100000 北京市豐臺區航*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 內容 自動 生成 方法 系統 | ||
1.一種視頻內容自動生成方法,其特征在于,具體步驟包括:
1)將輸入數據生成為故事內容;
2)將文本形式的所述故事內容合成為具有指定角色聲音特征的朗讀音頻;
3)將所述朗讀音頻作為面部動畫合成模型的輸入,由所述朗讀音頻驅動角色面部動畫并生成面部動畫視頻;
步驟1)中,將輸入數據生成為所述故事內容的具體方法步驟包括:
1.1)給定一起始單詞;
1.2)將所述起始單詞轉換為可表征所述起始單詞的詞向量;
1.3)根據關聯所述起始單詞的所述詞向量,計算詞匯表中的每個單詞可作為所述起始單詞的下一個單詞的概率;
1.4)選擇概率值最大的單詞作為新詞加入到所述起始單詞的尾部,與所述起始單詞形成為新的詞序列;
1.5)提取所述詞序列中的排序最末的一個單詞,并將提取的所述單詞作為給定的所述起始單詞并重復步驟1.2)-步驟1.4),形成多個所述詞序列;
1.6)按照詞序列形成時間由早到晚將各所述詞序列拼接形成為文本形式的所述故事內容。
2.根據權利要求1所述的視頻內容自動生成方法,其特征在于,步驟2)中,將文本形式的所述故事內容合成為具有指定角色聲音特征的朗讀音頻的具體方法步驟包括:
2.1)分析輸入的所述故事內容的文本句子結構,以鑒別出文本語言,并對輸入文本進行子句切分;
2.2)對切分的所述子句進行文本正則化處理;
2.3)將經正則化處理后的子句文本轉換為音素;
2.4)對所述子句進行韻律預測;
2.5)將所述子句的音素和韻律綜合形成為語言信息;
2.6)通過預設的時長模型確定所述子句中的每個文字的發音時長;
2.7)通過聲學模型將所述語言信息轉換為所述指定角色的聲音特征;
2.8)通過聲碼器將所述聲音特征轉換為聲音并輸出。
3.一種視頻內容自動生成系統,可實現如權利要求1-2任意一項所述的視頻內容自動生成方法,其特征在于,所述視頻內容自動生成系統包括:
故事內容生成模塊,用于將輸入數據生成為故事內容;
音頻合成模塊,連接故事內容生成模塊,用于將文本形式的故事內容合成為具有指定角色聲音特征的朗讀音頻;
面部動畫合成模塊,連接音頻合成模塊,用于將朗讀音頻作為面部動畫合成模型的輸入,由朗讀音頻驅動角色面部動畫并生成面部動畫視頻。
4.根據權利要求3所述的視頻內容自動生成系統,其特征在于,所述故事內容生成模塊中具體包括:
起始單詞給定單元,用于提供給用戶給定一起始單詞;
單詞轉換單元,連接所述起始單詞給定單元,用于將所述起始單詞轉換為可表征該所述起始單詞的詞向量;
單詞預測單元,連接所述單詞轉換單元,用于根據關聯該所述起始單詞的所述詞向量,計算詞匯表中的每個單詞可作為所述起始單詞的下一個單詞的概率;
單詞選定單元,連接所述單詞預測單元,用于從概率計算結果中自動選擇概率值最大的所述單詞作為可加入到所述起始單詞尾部的新詞;
新詞加入單元,連接所述單詞選定單元,用于將所述新詞加入到所述起始單詞的尾部;
詞序列形成單元,連接所述起始單詞給定單元和所述新詞加入單元,用于將加入到所述起始單詞的尾部的所述新詞和所述起始單詞形成為詞序列并保存;
起始單詞獲取單元,連接所述詞序列形成單元和所述單詞轉換單元,用于從形成的所述詞序列中提取排序最末的一個單詞作為給定的所述起始單詞;
故事內容生成單元,連接所述詞序列形成單元,用于按照詞序列形成時間由早到晚將各所述詞序列拼接形成為文本形式的所述故事內容。
5.根據權利要求3所述的視頻內容自動生成系統,其特征在于,所述音頻合成模塊中具體包括:
句子結構分析單元,用于分析輸入的所述故事內容的文本句子結構,以鑒別出文本語言,并對輸入文本進行子句切分;
文本正則化處理單元,用于對切分的子句進行文本正則化處理;
子句文本轉換單元,連接所述文本正則化處理單元,用于將正則化處理后的子句文本轉換為音素;
韻律預測單元,用于對所述子句進行韻律預測;
子句語言信息生成單元,分別連接所述子句文本轉換單元和所述韻律預測單元,用于將所述子句的音素和韻律綜合形成為語言信息;
發音時長設置單元,用于通過預設的時長模型確定所述子句中的每個文字的發音時長;
語言信息轉換單元,連接所述子句語言信息生成單元,用于通過聲學模型將所述語言信息轉換為所述指定角色的聲音特征并輸出;
聲音特征轉換單元,連接所述語言信息轉換單元,用于通過聲碼器將所述聲音特征轉換為聲音并輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科深智科技有限公司,未經北京中科深智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110202986.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種碳化硅單晶清洗劑及其應用
- 下一篇:軌跡信息規劃方法及裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





