[發明專利]一種文本的替換方法和裝置在審
| 申請號: | 202010414616.9 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111753506A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 吳帥;李健;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/289;G06F16/958;G06N3/08 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 替換 方法 裝置 | ||
1.一種文本的替換方法,其特征在于,所述方法包括:
獲取目標文本及增量文本;
將所述目標文本輸入已經過預先訓練的神經網絡模型,得到與所述目標文本對應的多個第一文本標簽;
將所述目標文本輸入文本替換模型,得到與所述目標文本對應的第二文本標簽,所述文本替換模型為利用所述增量文本,實時訓練條件隨機場模型后得到的模型;
將所述多個第一文本標簽中與所述第二文本標簽相同的文本標簽,確定為目標文本標簽,所述目標文本標簽中包含文本格式類型、替換起始位置和替換結束位置;
根據所述目標文本標簽中的替換起始位置和替換結束位置,確定所述目標文本中的待替換文本;
根據所述文本格式類型,確定與所述待替換文本對應的替換文本,并將所述目標文本中的待替換文本替換為所述替換文本。
2.根據權利要求1所述的方法,其特征在于,所述將所述目標文本輸入已經過預先訓練的神經網絡模型,得到與所述目標文本對應的多個第一文本標簽的步驟,包括:
將所述目標文本輸入所述神經網絡模型,得到與所述目標文本對應的多個第一文本標簽,以及與所述第一文本標簽對應的第一預測概率值;
所述將所述目標文本輸入文本替換模型,得到與所述目標文本對應的第二文本標簽的步驟,包括:
將所述目標文本輸入所述文本替換模型,得到與所述目標文本對應的第二文本標簽,以及與所述第二文本標簽對應的第二預測概率值;
所述并將所述目標文本中的待替換文本替換為所述替換文本的步驟,具體包括:
在所述第一預測概率值和所述第二預測概率值滿足預設條件的情況下,將所述目標文本中的待替換文本替換為所述替換文本。
3.根據權利要求2所述的方法,其特征在于,所述預設條件為:
A×PNN+B×PCRFλ
其中,PNN為所述第一預測概率值,A為所述第一預測概率值的權重;
PCRF為所述第二預測概率值,B為所述第二預測概率值的權重;
λ為概率值閾值。
4.根據權利要求2所述的方法,其特征在于,所述將所述目標文本輸入所述文本替換模型,得到與所述目標文本對應的第二文本標簽,以及與所述第二文本標簽對應的第二預測概率值的步驟,包括:
將所述目標文本輸入所述文本替換模型,得到與所述目標文本對應的第二文本標簽;
根據所述文本替換模型包含的特征函數,計算所述待替換文本中每一個字符對應的字符標簽的概率值;
計算所述待替換文本中每一個字符對應的字符標簽的概率值的幾何平均值,將所述幾何平均值確定為所述第二預測概率值。
5.根據權利要求1所述的方法,其特征在于,所述將所述目標文本輸入已經過預先訓練的神經網絡模型,得到與所述目標文本對應的多個第一文本標簽的步驟,包括:
將所述目標文本輸入所述神經網絡模型中,根據預先設置的標簽集,確定所述目標文本中每一個字符對應的字符標簽;
根據所述目標文本中每一個字符對應的字符標簽,生成與所述目標文本對應的多個第一文本標簽。
6.根據權利要求1所述的方法,其特征在于,預先訓練所述神經網絡模型的步驟,包括:
獲取樣本語料,以及所述樣本語料中包含的樣本文本格式類型、樣本替換起始位置和樣本替換結束位置;
根據所述樣本文本格式類型、所述樣本替換起始位置和所述樣本替換結束位置,對所述樣本語料進行標注,得到與所述樣本語料對應的樣本標簽;
根據所述樣本語料和所述樣本標簽對所述神經網絡模型進行預先訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010414616.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:泌尿科專用的引流裝置
- 下一篇:遙控器MCU晶振檢測方法





