[發明專利]字幕生成方法、字幕測試方法和字幕處理設備在審
| 申請號: | 202010895488.4 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN114125571A | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 張騫;蔣林;余朝暉 | 申請(專利權)人: | 伊普西龍信息科技(北京)有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;G06F40/211 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 於菪珉 |
| 地址: | 100102 北京市朝陽區廣順北大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字幕 生成 方法 測試 處理 設備 | ||
本公開涉及一種字幕生成方法、字幕測試方法和字幕處理設備。其中,字幕生成方法包括:獲取字幕源文本,其中,所述字幕源文本包括一條或多條分隔的語句;針對每條語句,根據預設字數閾值和語句中的完整詞的位置,將語句分割成一條或多條預分割語句,其中,預分割語句的字數小于或等于所述預設字數閾值,且預分割語句以完整詞開始和結束;根據完整詞中的起始詞和末尾詞調整預分割語句,以生成子語句,其中,子語句不以起始詞結束、且不以末尾詞開始;以及分別將每條子語句生成為單條字幕。
技術領域
本公開涉及自然語言處理技術領域,具體來說,涉及一種字幕生成方法、字幕測試方法和字幕處理設備。
背景技術
為了改善視頻的觀看體驗,在制作視頻時通常需要添加字幕。在傳統方式中,字幕可以被手動地添加,但這往往需要耗費大量的用于制作字幕的時間。此外,手動地調整字幕的字號、位置等參數也是十分不便的。隨著自然語言處理技術的發展,可以通過識別視頻中的語音來自動地生成字幕。然而,在自動生成的字幕中,很容易出現斷句不合理的現象,具體可以包括:單條字幕中的字數過多而導致的閱讀不便,斷句位置不合理而導致的語義不通順等問題,使得視頻的觀看體驗變差。
發明內容
本公開的目的在于提供一種字幕生成方法、字幕測試方法和字幕處理設備。
根據本公開的第一方面,提供了一種字幕生成方法,所述字幕生成方法包括:
獲取字幕源文本,其中,所述字幕源文本包括一條或多條分隔的語句;
針對每條語句,根據預設字數閾值和語句中的完整詞的位置,將語句分割成一條或多條預分割語句,其中,預分割語句的字數小于或等于所述預設字數閾值,且預分割語句以完整詞開始和結束;
根據完整詞中的起始詞和末尾詞調整預分割語句,以生成子語句,其中,子語句不以起始詞結束、且不以末尾詞開始;以及
分別將每條子語句生成為單條字幕。
在一些實施例中,所述字幕源文本是基于自然語言處理對語音進行識別而生成的。
在一些實施例中,針對每條語句,根據預設字數閾值和語句中的完整詞的位置,將語句分割成一條或多條預分割語句包括:
獲取語句的字數;
比較所述語句的字數與第一預設字數;
當所述語句的字數小于或等于所述第一預設字數時,將所述語句作為預分割語句;
其中,所述第一預設字數小于或等于所述預設字數閾值。
在一些實施例中,所述第一預設字數為10至14。
在一些實施例中,針對每條語句,根據預設字數閾值和語句中的完整詞的位置,將語句分割成一條或多條預分割語句還包括:
當所述語句的字數大于所述第一預設字數時,比較所述語句的字數與第二預設字數;
當所述語句的字數小于或等于所述第二預設字數時,從所述語句的第一分割位置處開始向后查找完整詞;
當查找到最近鄰于所述第一分割位置的完整詞時,在該完整詞的結束位置處分割所述語句,以生成兩條預分割語句;
其中,所述第二預設字數大于所述第一預設字數。
在一些實施例中,所述第二預設字數X2與所述第一預設字數X1之間滿足:X2=(X1-2)*2。
在一些實施例中,所述語句的在所述第一分割位置之前的字數與在所述第一分割位置之后的字數之間的差的絕對值為0或1。
在一些實施例中,針對每條語句,根據預設字數閾值和語句中的完整詞的位置,將語句分割成一條或多條預分割語句還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊普西龍信息科技(北京)有限公司,未經伊普西龍信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010895488.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種通信方法及通信裝置
- 下一篇:用于頻譜共享的方法、裝置和系統





