[發明專利]一種基于語音識別的文本處理方法和裝置在審

申請號：	201510982716.0	申請日：	2015-12-23
公開（公告）號：	CN105609107A	公開（公告）日：	2016-05-25
發明（設計）人：	曹松軍	申請（專利權）人：	北京奇虎科技有限公司;奇智軟件（北京）有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G06F17/27;G06F17/30
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	趙娟
地址：	100088 北京市西城區新***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音識別文本處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于語音識別的文本處理方法，包括：

獲取對語音數據進行語音識別獲得的第一文本；

對所述第一文本進行斷句，獲得一個或多個文本片段；

對所述一個或多個文本片段添加標點符號，組合成第二文本。

2.如權利要求1所述的方法，其特征在于，所述對所述第一文本進行斷句，獲得一個或多個文本片段的步驟包括：

對所述第一文本進行切詞處理，獲得一個或多個字；

識別所述一個或多個字的詞位置；

在所述第一文本的指定的詞位置處進行斷句，獲得一個或多個文本片段。

3.如權利要求2所述的方法，其特征在于，所述識別所述一個或多個字的詞位置的步驟包括：

按照字的順序，按照前一個字的每一個詞位置的概率，計算出后一個字的每一個詞位置的概率；

按照字的逆序，按照后一個字基于概率標注的詞位置，標注出前一個字的詞位置。

4.如權利要求3所述的方法，其特征在于，所述按照字的順序，按照前一個字的每一個詞位置的概率，計算出后一個字的每一個詞位置的概率的步驟包括：

通過預設的序列標注模型，計算出第1個字的每個詞位置的概率；

通過預設的序列標注模型，基于第i-1個字的每個詞位置的概率，計算出第i個字的每個詞位置的概率，i為大于1的正整數；

針對第i個字的每個詞位置的概率，以值最高的概率作為所述詞位置的概率。

5.如權利要求4所述的方法，其特征在于，所述序列標注模型為條件隨機場模型，基于訓練文本及針對所述訓練文本中的字標注的詞位置訓練生成，所述訓練文本的標點符號被替換。

6.如權利要求3或4或5所述的方法，其特征在于，所述按照字的逆序，按照后一個字基于概率標注的詞位置，標注出前一個字的詞位置的步驟包括：

針對最后一個字，標注值最高的概率所屬的詞位置；

當第i個字確定詞位置時，查詢計算出第i個字詞位置的概率的第i-1個字的概率，i為大于1的正整數；

針對第i-1個字，標注所述第i-1個字的概率所屬的詞位置。

7.如權利要求2或3或4或5所述的方法，其特征在于，所述詞位置包括詞首、詞尾、詞中、單字詞中的一個或多個；

所述在所述第一文本的指定的詞位置處進行斷句的步驟包括：

在所述第一文本的詞首和/或單字詞之前進行斷句；

和/或，

在所述第一文本的詞尾和/或單字詞之后進行斷句。

8.如權利要求1或2或3或4或5所述的方法，其特征在于，所述對所述一個或多個文本片段添加標點符號的步驟包括：

針對每個文本片段，識別出關鍵詞；

查找所述關鍵詞對應的標點符號；

在所述文本片段之后添加所述標點符號。

9.一種基于語音識別的文本處理裝置，包括：

第一文本獲取模塊，適于獲取對語音數據進行語音識別獲得的第一文本；

斷句模塊，適于對所述第一文本進行斷句，獲得一個或多個文本片段；

標點符號添加模塊，適于對所述一個或多個文本片段添加標點符號，組合成第二文本。

10.如權利要求9所述的裝置，其特征在于，所述斷句模塊還適于：

對所述第一文本進行切詞處理，獲得一個或多個字；

識別所述一個或多個字的詞位置；

在所述第一文本的指定的詞位置處進行斷句，獲得一個或多個文本片段。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件（北京）有限公司，未經北京奇虎科技有限公司;奇智軟件（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510982716.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：基于雙譜加權空間相關矩陣的語音聲源定位方法
下一篇：一種精煉鋼包用低碳剛玉尖晶石磚及其制備方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】