[發明專利]文本標點恢復方法和裝置在審
| 申請號: | 202210271781.2 | 申請日: | 2022-03-18 |
| 公開(公告)號: | CN114626336A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 王正鍇;馬博聞;李志飛 | 申請(專利權)人: | 上海墨百意信息科技有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 李偉波 |
| 地址: | 200232 上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標點 恢復 方法 裝置 | ||
本公開提供一種文本標點恢復的方法,包括:將待處理文本進行預處理,以使得待處理文本符合標點恢復模型的輸入數據格式;將經預處理后的待處理文本輸入至標點恢復模型,通過標點恢復模型進行神經元標簽計算,以獲得文本標記和標點符號標記;根據文本標記和標點符號標記,在待處理文本中插入對應的標點符號,得到帶標點符號的文本。本公開還提供了一種文本標點恢復的裝置、電子設備以及可讀存儲介質。
技術領域
本公開涉及自然語言處理技術領域,尤其涉及一種文本標點恢復的方法、裝置、電子設備及可讀存儲介質。
背景技術
語音轉文本技術和應用場景中,需要通過標點符號對文本進行斷句,以增加文本的可讀性。現有轉寫標點恢復方法,預測某字符后是否有標點的過程中忽略了與全局信息的關聯。而在實際的標點恢復過程中,不僅需要獲取字符的特征表示,更需要結合全局信息進行標點判定。同時,目前表現較好的特征提取器Bert也存在固有的缺陷。由于采用自注意力機制,采用融合Position編碼向量的方式,缺乏基于RNN類模型對全局序列信息的表征能力。因此,需要一種文本標點恢復的方法及裝置,改善現有技術中文本標點恢復的效果。
發明內容
為了解決上述技術問題中的至少一個,本公開提供了一種文本標點恢復的方法、裝置、電子設備及可讀存儲介質。
根據本公開的一個方面,提供一種文本標點恢復的方法,包括:
將待處理文本進行預處理,以使得所述待處理文本符合標點恢復模型的輸入數據格式;
將經預處理后的待處理文本輸入至所述標點恢復模型,通過標點恢復模型進行神經元標簽計算,以獲得文本標記和標點符號標記;
根據所述文本標記和標點符號標記,在所述待處理文本中插入對應的標點符號,得到帶標點符號的文本;
其中,待處理文本的預處理,至少包括多待處理文本進行分詞,將所述待處理文本轉換為分詞序列。
根據本公開至少一個實施方式的文本標點恢復的方法,所述標點恢復模型經預先訓練獲得,所述標點恢復模型訓練方法包括:
獲取訓練數據;
對所述訓練數據處理,包括:從所述訓練數據中去除標點及噪聲,所述噪聲包括用于標識網頁標簽的字符;
將所述訓練數據進行分詞,并將所述分詞序列轉換為字符級向量文本序列,所述字符級向量文本序列是通過字符級向量形成的序列,所述字符級向量表示構成各個分詞的字符的向量;
對所述分詞序列中的詞添加詞性標識,將所述訓練數據轉換為具有詞性標識的詞向量序列;
對經分詞后的序列,進行標點符號標注,得到對應的標點標簽序列;
對經分詞后的序列,進行詞性標注,得到對應的詞性標簽序列;
所述文本序列和標點標簽序列、詞性標簽序列分別一一對應,將所述文本序列、標點標簽序列、詞性標簽序列構成訓練集輸入神經訓練恢復模型進行訓練,經反復訓練至滿足預設的訓練指標后,獲得所述標點恢復模型。
根據本公開至少一個實施方式的文本標點恢復的方法,所述標點恢復模型的組成包括:
詞向量模型,接收待處理文本,將文本轉換為字符級向量文本序列,所述字符級向量文本序列是通過字符級向量形成的序列,其中,所述待處理文本在標點恢復模型訓練階段時為訓練文本,所述待處理文本在通過標點恢復模型進行標點恢復時為待標識標點的文本;
詞性標簽嵌入模型,用于對輸入至標點恢復模型的詞進行詞性標識;
雙向長短時記憶網絡模型,接收結合了詞性標識的詞向量序列;
分類模型,用于輸出各個詞/字符后可能需要添加的標點類型對應的概率分布;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海墨百意信息科技有限公司,未經上海墨百意信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210271781.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數字孿生模型構建方法
- 下一篇:一種自動卸料控制系統及方法





