[發明專利]基于深度學習的文本處理模型訓練方法、裝置及設備有效
| 申請號: | 202010301503.8 | 申請日: | 2020-04-16 |
| 公開(公告)號: | CN111507094B | 公開(公告)日: | 2023-10-10 |
| 發明(設計)人: | 苗思奇;盧子填;胡榮杰 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/126 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 文本 處理 模型 訓練 方法 裝置 設備 | ||
1.一種基于深度學習的文本處理模型訓練方法,其特征在于,所述方法包括:
調用文本處理模型,對目標文本進行處理,得到多個處理結果的概率,選取概率最高的處理結果作為目標處理結果;
獲取所述目標文本的糾錯信息,所述糾錯信息包括對所述目標處理結果進行糾錯后得到的糾錯處理結果,所述目標處理結果與所述糾錯處理結果不同;
對所述多個處理結果的概率進行統計處理,獲取所述目標文本的處理結果分布特征,所述處理結果分布特征用于指示所述文本處理模型處理所述目標文本得到的處理結果的不確定性程度;
響應于所述處理結果分布特征滿足目標條件,根據所述目標文本及所述糾錯處理結果,對所述文本處理模型進行訓練,得到訓練后的文本處理模型。
2.根據權利要求1所述的方法,其特征在于,所述響應于所述處理結果分布特征滿足目標條件,根據所述目標文本及所述糾錯處理結果,對所述文本處理模型進行訓練,得到訓練后的文本處理模型,包括:
對所述處理結果分布特征進行統計處理,獲取所述目標處理結果的準確度;
響應于所述目標處理結果的準確度小于預設準確度,根據所述目標文本及所述糾錯處理結果,對所述文本處理模型進行訓練,得到所述訓練后的文本處理模型。
3.根據權利要求2所述的方法,其特征在于,所述處理結果分布特征為所述目標文本的困惑度,所述困惑度與所述目標處理結果的準確度呈正相關關系;或者,
所述處理結果分布特征為所述目標文本的信息熵,所述信息熵與所述目標處理結果的準確度呈負相關關系。
4.根據權利要求1所述的方法,其特征在于,所述對所述多個處理結果的概率進行統計處理,獲取所述目標文本的處理結果分布特征之后,所述方法還包括:
若所述處理結果分布特征不滿足所述目標條件,將所述糾錯信息刪除。
5.根據權利要求1所述的方法,其特征在于,所述響應于所述處理結果分布特征滿足目標條件,根據所述目標文本及所述糾錯處理結果,對所述文本處理模型進行訓練,得到訓練后的文本處理模型之后,所述方法還包括:
對第一文本中的每個漢字字符進行編碼,得到所述每個漢字字符對應的漢字特征值;
獲取包括多個預設特征值以及對應的拼音字符的映射關系,所述多個預設特征值按照順序排列;
根據每個漢字特征值與所述多個預設特征值之間的大小關系以及所述多個預設特征值的順序,查詢所述每個漢字特征值對應的拼音字符;
將所述每個漢字字符分別轉換為所述每個漢字特征值對應的拼音字符,得到第二文本;
調用所述訓練后的文本處理模型,對所述第二文本進行處理,得到處理結果。
6.根據權利要求5所述的方法,其特征在于,所述根據每個漢字特征值與所述多個預設特征值之間的大小關系以及所述多個預設特征值的順序,查詢所述每個漢字特征值對應的拼音字符,包括:
對于每個漢字特征值,進行如下查詢處理:
確定所述多個預設特征值中位于中間位置的第一預設特征值;
響應于所述第一預設特征值與所述漢字特征值相同,將所述第一預設特征值對應的拼音字符,作為所述漢字特征值對應的拼音字符;
響應于所述第一預設特征值小于所述漢字特征值,根據所述多個預設特征值的順序確定大于所述第一預設特征值的第二預設特征值,直至確定的預設特征值與所述漢字特征值相同,將所述確定的預設特征值對應的拼音字符作為所述漢字特征值對應的拼音字符;
響應于所述第一預設特征值大于所述漢字特征值,根據所述多個預設特征值的順序確定小于所述第一預設特征值的第三預設特征值,直至確定的預設特征值與所述漢字特征值相同,將所述確定的預設特征值對應的拼音字符作為所述漢字特征值對應的拼音字符。
7.根據權利要求6所述的方法,其特征在于,所述根據所述多個預設特征值的順序確定大于所述第一預設特征值的第二預設特征值,包括:
若所述多個預設特征值按照降序排列,從位于所述第一預設特征值之前的預設特征值中,確定第二預設特征值;
若所述多個預設特征值按照升序排列,從位于所述第一預設特征值之后的預設特征值中,確定第二預設特征值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010301503.8/1.html,轉載請聲明來源鉆瓜專利網。





