[發明專利]基于語音識別的文本處理方法、裝置、電子設備及介質有效

申請號：	202110302727.5	申請日：	2021-03-22
公開（公告）號：	CN113053390B	公開（公告）日：	2022-12-02
發明（設計）人：	王天哲	申請（專利權）人：	深圳如布科技有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G06F40/117
代理公司：	北京云知萬象專利代理事務所(普通合伙) 16013	代理人：	何輝
地址：	518000 廣東省深圳市寶安區航***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于語音識別文本處理方法裝置電子設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種基于語音識別的文本處理方法、裝置、電子設備及存儲介質。所述方法包括：將語音識別獲取的初始文本序列切分為至少兩個切分對象，并確定至少兩個切分對象中相鄰兩個切分對象之間的靜音時長，進而依據各個相鄰兩個切分對象之間的靜音時長，在至少兩個切分對象中添加匹配的標點符號，得到帶標點符號的目標文本序列。采用本申請技術方案，在對語音進行識別后可利用識別的文本中相鄰單詞或單字之間的靜音時長，通過進行靜音長度動態跟蹤在各個單詞或單字之間添加合適的標點符合，簡單地使用語音識別器的靜音信息就能實現快速標點符號斷句的效果，增加文本識別結果的可讀性，解決相關語音識別技術中無法自動添加標點符號，從而降低用戶文本可讀性的問題。

技術領域

本發明實施例涉及自然語言處理技術領域，尤其涉及一種基于語音識別的文本處理方法、裝置、電子設備及介質。

背景技術

語音識別技術已經能夠很好地進行字識別，但是語音識別結果并不直接包含標點符號信息，比如長句子和小段落識別的語音識別結果都是沒有任何標點符號斷句的文本結果。

標點符號后處理技術使用了語言相關的標點符號添加模型，通過對大量帶標點符號的文本進行標點符號上下文信息建模，從而在識別結果出來后進行標點符號添加。但是，需要引入語言相關模塊和大量訓練語料以及相關建模專業知識，對于標點符號的精度和種類要求并不高的應用而言開發和維護成本較高。

發明內容

本發明實施例中提供了一種基于語音識別的文本處理方法、裝置、電子設備及存儲介質，以實現簡單迅速地解決標點符號的斷句問題。

第一方面，本發明實施例中提供了一種基于語音識別的文本處理方法，所述方法包括：

將語音識別獲取的初始文本序列切分為至少兩個切分對象；其中所述切分對象包括單詞或單字；

確定所述至少兩個切分對象中相鄰兩個切分對象之間的靜音時長；

依據各個相鄰兩個切分對象之間的靜音時長，在至少兩個切分對象中添加匹配的標點符號，得到帶標點符號的目標文本序列。

第二方面，本發明實施例中還提供了一種基于語音識別的文本處理裝置，所述裝置包括：