[發明專利]文本標點符號刪除方法、裝置、電子設備和存儲介質在審
| 申請號: | 202011218875.0 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112633004A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 杜春賽;徐文銘;楊晶生;鄭翔 | 申請(專利權)人: | 北京字跳網絡技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G10L15/22;G06N3/04;G06K9/62;G06F16/35;G10L15/26 |
| 代理公司: | 北京植德律師事務所 11780 | 代理人: | 唐華東 |
| 地址: | 100190 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標點符號 刪除 方法 裝置 電子設備 存儲 介質 | ||
本公開提供一種文本標點符號刪除方法、裝置、電子設備和存儲介質。該方法的一具體實施方式包括:對于待處理文本中的每個字符,基于該字符的語義向量生成該字符的特征向量;將待處理文本中每個字符的特征向量按照該字符在待處理文本中的出現順序,依次輸入預先訓練的標點刪除確定模型,得到該字符的標點刪除確定結果,標點刪除確定結果用于標記該字符是否為待刪除標點符號;將待處理文本中標記為待刪除標點符號的字符刪除。該實施方式實現了刪除文本中不必要的標點符號,提升了文本通順度。
技術領域
本公開的實施例涉及自然語言處理技術領域,具體涉及文本標點符號刪除方法、裝置、電子設備和存儲介質。
背景技術
自動語音識別(Automatic Speech Recognition,ASR)技術是指將用戶的語音數據轉換為相應語音內容文字的技術。目前的ASR中,因語音端點檢測技術問題,會導致識別結果中出現一些不必要的標點符號。例如,用戶說話的過程中的停頓處會被打上標點符號,但實際大都不需要這個標點符號。
發明內容
本公開的實施例提出了文本標點符號刪除方法、裝置、電子設備和存儲介質。
第一方面,本公開的實施例提供了一種文本標點符號刪除方法,該方法包括:對于待處理文本中的每個字符,基于該字符的語義向量生成該字符的特征向量;將上述待處理文本中每個字符的特征向量按照該字符在上述待處理文本中的出現順序,依次輸入預先訓練的標點刪除確定模型,得到該字符的標點刪除確定結果,標點刪除確定結果用于標記該字符是否為待刪除標點符號;將上述待處理文本中標記為待刪除標點符號的字符刪除。
在一些可選的實施方式中,上述待處理文本通過如下方式生成:獲取待識別語音數據;對上述待識別語音數據進行語音識別,得到識別文本;對上述識別文本進行劃分,得到至少一個待處理文本,其中,每個待處理文本的文本長度小于預設文本長度。
在一些可選的實施方式中,上述對上述識別文本進行劃分,得到至少一個待處理文本,包括:基于上述識別文本的語義進行劃分,得到至少一個待處理文本。
在一些可選的實施方式中,在上述將上述待處理文本中標記為待刪除標點符號的字符刪除之后,上述方法還包括:呈現刪除字符后的上述待處理文本。
在一些可選的實施方式中,在上述對上述識別文本進行劃分,得到至少一個待處理文本之后,上述方法還包括:呈現上述待處理文本。
在一些可選的實施方式中,上述基于該字符的語義向量生成該字符的特征向量,包括:對該字符進行詞嵌入編碼所得到的語義向量確定為該字符的特征向量。
在一些可選的實施方式中,上述基于該字符的語義向量生成該字符的特征向量,包括:對該字符進行詞嵌入編碼,得到該字符的語義向量;根據該字符是否屬于預設標點符號集合,確定標點符號特征分量;用該字符的語義向量和上述標點符號特征分量生成該字符的特征向量。
在一些可選的實施方式中,在對于待處理文本中的每個字符,基于該字符的語義向量生成該字符的特征向量之前,上述方法還包括:對上述待處理文本進行分詞,得到待處理分詞序列;以及上述基于該字符的語義向量生成該字符的特征向量,包括:對該字符進行詞嵌入編碼,得到該字符的語義向量;將上述待處理分詞序列中與該字符對應的分詞確定為目標分詞;用該字符的語義向量和以下至少一項生成該字符的特征向量:位置特征分量和詞性特征分量,其中,上述位置特征分量是根據該字符在上述目標分詞中的位置確定的,上述詞性特征分量是根據上述目標分詞的詞性確定的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字跳網絡技術有限公司,未經北京字跳網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011218875.0/2.html,轉載請聲明來源鉆瓜專利網。





