[發明專利]一種文本標點預測方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201910182506.1 | 申請日: | 2019-03-12 |
| 公開(公告)號: | CN110032732A | 公開(公告)日: | 2019-07-19 |
| 發明(設計)人: | 王健宗;程寧;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/21 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 黃章輝 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標點 目標文本 目標字 文本 計算機設備 存儲介質 結果序列 目標向量 預測 分詞處理 后面位置 網絡模型 語音識別 向量化 預設 輸出 應用 學習 | ||
1.一種文本標點預測方法,其特征在于,包括:
獲取無標點的目標文本;
對所述目標文本進行分詞處理,得到所述目標文本中的各個目標字詞;
對所述各個目標字詞分別進行向量化處理,得到所述各個目標字詞對應的各個目標向量;
按照所述各個目標字詞在所述目標文本中的次序,將所述各個目標向量依次輸入至網絡模型,得到所述網絡模型依次輸出的結果序列,所述結果序列中的各個數值分別表征了所述各個目標字詞對應的標點,所述網絡模型由預先訓練好的LSTM網絡和條件隨機場組成;
根據預設的數值標點對應關系分別確定出各個數值對應的各個標點,所述數值標點對應關系記錄了數值與標點的一一對應關系;
針對所述各個標點中的每個標點,將所述每個標點插入至所述目標文本中與所述每個標點對應目標字詞的后面位置,得到標點預測后的話術文本,所述后面位置是指所述目標文本中位于所述目標字詞后面、且緊靠所述目標字詞的位置。
2.根據權利要求1所述的文本標點預測方法,其特征在于,所述網絡模型通過以下步驟預先訓練好:
收集多個帶標點的話術文本;
將收集到的各個話術文本中的標點與文本分離,得到各個樣本文本和與所述各個樣本文本對應的各個標點集合;
針對每個標點集合,根據預設的數值標點對應關系分別確定出所述每個標點集合中各個標點對應的第一數值,并以各個所述第一數值組成與所述每個標點集合對應的標準序列,所述數值標點對應關系記錄了數值與標點的一一對應關系;
對所述樣本文本分別進行分詞處理,得到各個所述樣本文本中的各個樣本字詞;
對各個所述樣本文本中的各個樣本字詞分別進行向量化處理,得到與所述各個樣本字詞對應的各個樣本向量;
針對各個所述樣本文本中每個樣本文本,按照各個樣本字詞在每個樣本文本中的次序,將各個樣本向量依次輸入至所述網絡模型中LSTM網絡,得到所述LSTM網絡依次輸出的各個中間向量;
分別將各個所述中間向量輸入至所述網絡模型中條件隨機場中,得到所述條件隨機場輸出的樣本序列,所述樣本序列中的各個數值分別表征了所述各個樣本字詞對應的標點;
以輸出的所述樣本序列作為調整目標,調整所述LSTM網絡的參數和所述條件隨機場的權重系數,以最小化得到的所述樣本序列與所述每個樣本文本對應的標準序列之間的誤差;
若所述樣本序列與所述每個樣本文本對應的標準序列之間的誤差滿足預設的訓練終止條件,則確定所述網絡模型已訓練好。
3.根據權利要求1所述的文本標點預測方法,其特征在于,所述針對所述各個標點中的每個標點,將所述每個標點插入至所述目標文本中與所述每個標點對應目標字詞的后面位置,得到標點預測后的話術文本包括:
將所述結果序列中的第一個標點確定為當前標點;
將所述目標文本中的第一個目標字詞確定為當前字詞;
將所述當前標點插入至所述目標文本中當前字詞與下一字詞之前的位置,所述下一字詞是指所述目標文本中所述當前字詞的下一個字詞;
若所述當前標點不是所述結果序列的最后一個標點,則將所述結果序列中當前標點的下一個標點確定為新的當前標點,且將所述目標文本中當前字詞的下一個字詞確定為新的當前字詞,再返回執行所述將所述當前標點插入至所述目標文本中當前字詞與下一字詞之前的位置的步驟;
若所述當前標點是所述結果序列的最后一個標點,則確定所述目標文本為標點預測后的話術文本。
4.根據權利要求1所述的文本標點預測方法,其特征在于,所述對所述各個目標字詞分別進行向量化處理,得到所述各個目標字詞對應的各個目標向量包括:
針對所述各個目標字詞中的每個目標字詞,檢索預設的字典中是否記錄有所述每個目標字詞,所述字典記錄了字詞與一維向量之間的對應關系;
若預設的字典中記錄有所述每個目標字詞,則獲取與所述每個目標字詞對應的一維向量;
若預設的字典中沒有記錄有所述每個目標字詞,則通過加載第一第三方平臺的詞向量,將所述每個目標字詞轉化為第一向量;
通過加載第二第三方平臺的詞向量,將所述每個目標字詞轉化為第二向量;
拼接所述第一向量和第二向量,得到一個一維向量作為所述每個目標字詞對應的一維向量;
將拼接得到的所述一維向量和與之對應的目標字詞記錄至所述字典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910182506.1/1.html,轉載請聲明來源鉆瓜專利網。





