[發明專利]標點添加方法和裝置、用于標點添加的裝置有效
| 申請號: | 201710396130.5 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107291690B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 姜里羊;王宇光;陳偉;鄭宏 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/08;G10L15/26 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標點 添加 方法 裝置 用于 | ||
本發明實施例提供了一種標點添加方法和裝置、用于標點添加的裝置,其中的方法具體包括:獲取待處理文本;為所述待處理文本添加標點,以得到所述待處理文本對應的第一標點添加結果;若所述第一標點添加結果包括字數超過字數閾值且不包含預置標點的目標文本,則通過神經網絡模型為所述目標文本添加標點,以得到所述目標文本對應的第二標點添加結果。本發明實施例可以提高標點添加的準確度。
技術領域
本發明涉及信息處理技術領域,特別是涉及一種標點添加方法和裝置、以及一種用于標點添加的裝置。
背景技術
在通信領域以及互聯網領域等信息處理技術領域,在某些應用場景中需要為一些缺少標點的文件添加標點,例如,為了方便閱讀,為語音識別結果對應的文本添加標點等。
現有方案可以依據語音信號的靜音間隔,為語音識別結果對應的文本添加標點。具體地,可以首先設置靜音長短的閾值,如果語音信號中講話用戶說話時的靜音間隔的長度超過該閾值,則在對應的位置上添加標點;反之,如果語音信號中講話用戶說話時的靜音間隔的長度未超過該閾值,則不添加標點。
然而,發明人在實現本發明實施例的過程中發現,不同講話用戶往往具有不同的語速,這樣,現有方案中依據語音信號的靜音間隔,為語音識別結果對應的文本添加標點,將影響標點添加的準確度。例如,若講話用戶的語速過快,則語句之間沒有間隔、或者間隔很短以至于小于閾值,那么將不為文本添加任何標點。
發明內容
鑒于上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的標點添加方法、標點添加裝置、用于標點添加的裝置,本發明實施例可以提高標點添加的準確度。
為了解決上述問題,本發明公開了一種標點添加方法,包括:獲取待處理文本;為所述待處理文本添加標點,以得到所述待處理文本對應的第一標點添加結果;若所述第一標點添加結果包括字數超過字數閾值且不包含預置標點的目標文本,則通過神經網絡模型為所述目標文本添加標點,以得到所述目標文本對應的第二標點添加結果。
可選地,所述通過神經網絡模型為所述目標文本添加標點,包括:對所述目標文本進行分詞,以得到對應的第二詞序列;獲取所述第二詞序列對應的多種候選標點添加結果;利用神經網絡語言模型,確定所述候選標點添加結果對應的語言模型得分;從所述第二詞序列對應的多種候選標點添加結果中選擇語言模型得分最優的候選標點添加結果,作為所述目標文本對應的第二標點添加結果。
可選地,所述通過神經網絡模型為所述目標文本添加標點,包括:通過神經網絡轉換模型為所述目標文本添加標點,以得到所述目標文本對應的第二標點添加結果;其中,所述神經網絡轉換模型為依據平行語料訓練得到,所述平行語料包括:源端語料和目標端語料,所述目標端語料為所述源端語料中各詞匯對應的標點。
可選地,所述通過神經網絡轉換模型為所述目標文本添加標點,包括:對所述目標文本進行編碼,以得到所述目標文本對應的源端隱層狀態;依據神經網絡轉換模型的模型參數,對所述目標文本對應的源端隱層狀態進行解碼,以得到所述目標文本中各詞匯屬于候選標點的概率;依據目標文本中各詞匯屬于候選標點的概率,得到所述目標文本對應的第二標點添加結果。
可選地,所述為所述待處理文本添加標點,包括:通過N元文法語言模型為所述待處理文本添加標點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710396130.5/2.html,轉載請聲明來源鉆瓜專利網。





