[發明專利]數據處理方法和裝置在審
| 申請號: | 201911307167.1 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111104482A | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 曹宇慧;馮仕堃;陳徐屹;何徑舟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
本申請實施例公開了數據處理方法和裝置。該方法的一具體實施方式包括:獲取樣本集;將該樣本集中的多個目標樣本分別輸入預先訓練的第一自然語言處理模型,得到從該預先訓練的第一自然語言處理模型輸出的預測結果;將得到的預測結果分別確定為該多個目標樣本中各個目標樣本的標注;基于該多個目標樣本和該各個目標樣本的標注,對待訓練的第二自然語言處理模型進行訓練,得到訓練后的第二自然語言處理模型,第一自然語言處理模型中的參數,多于第二自然語言處理模型中的參數。本申請實施例能夠利用第一自然語言處理模型的預測結果作為樣本的標注,可以獲得大量存在標注的樣本對小模型進行訓練,從而訓練出精確度較高、且運行速度快的小模型。
技術領域
本申請實施例涉及計算機技術領域,具體涉及互聯網技術領域,尤其涉及數據處理方法和裝置。
背景技術
隨著語言處理技術的發展,自然語言處理(natural language processing,NLP)模型逐漸得到了廣泛的應用。各種各樣的自然語言處理模型也應運而生,其中不乏一些處理精度高,體量較大的模型。
然而,因為運算能力的限制,處理精度高的自然語言處理模型并非是所有計算平臺的最優選擇。且往往處理精度高的模型,預測速度較慢。
發明內容
本申請實施例提出了數據處理方法和裝置。
第一方面,本申請實施例提供了一種數據處理方法,包括:獲取樣本集,其中,樣本集中的樣本為無標注的語句;將樣本集中的多個目標樣本分別輸入預先訓練的第一自然語言處理模型,得到從預先訓練的第一自然語言處理模型輸出的預測結果;將得到的預測結果分別確定為多個目標樣本中各個目標樣本的標注;基于多個目標樣本和各個目標樣本的標注,對待訓練的第二自然語言處理模型進行訓練,得到訓練后的第二自然語言處理模型,其中,第一自然語言處理模型中的參數,多于第二自然語言處理模型中的參數。
在一些實施例中,目標樣本的標注用于指示目標樣本屬于至少兩個類型中的任一類型的概率。
在一些實施例中,方法還包括:將樣本集的樣本的目標詞替換為指定標識,其中,在包含指定標識的樣本中,目標詞的數量占該樣本的詞的數量的目標比例或目標數量;將包含指定標識的樣本,新增為樣本集的樣本。
在一些實施例中,方法還包括:將樣本集的樣本的目標詞,更新為詞性一致的另一個詞,其中,在更新后的樣本中,目標詞的數量占該樣本的詞的數量的目標比例或目標數量;將更新后的樣本新增為樣本集的樣本。
在一些實施例中,方法還包括:對于樣本集的樣本,截取目標長度的片段;將截取到的片段新增為樣本集的樣本。
第二方面,本申請實施例提供了一種數據處理裝置,包括:獲取單元,被配置成獲取樣本集,其中,樣本集中的樣本為無標注的語句;輸入單元,被配置成將樣本集中的多個目標樣本分別輸入預先訓練的第一自然語言處理模型,得到從預先訓練的第一自然語言處理模型輸出的預測結果;確定單元,被配置成將得到的預測結果分別確定為多個目標樣本中各個目標樣本的標注;訓練單元,被配置成基于多個目標樣本和各個目標樣本的標注,對待訓練的第二自然語言處理模型進行訓練,得到訓練后的第二自然語言處理模型,其中,第一自然語言處理模型中的參數,多于第二自然語言處理模型中的參數。
在一些實施例中,目標樣本的標注用于指示目標樣本屬于至少兩個類型中的任一類型的概率。
在一些實施例中,裝置還包括:將樣本集的樣本的目標詞替換為指定標識,其中,在包含指定標識的樣本中,目標詞的數量占該樣本的詞的數量的目標比例或目標數量;將包含指定標識的樣本,新增為樣本集的樣本。
在一些實施例中,裝置還包括:將樣本集的樣本的目標詞,更新為詞性一致的另一個詞,其中,在更新后的樣本中,目標詞的數量占該樣本的詞的數量的目標比例或目標數量;將更新后的樣本新增為樣本集的樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911307167.1/2.html,轉載請聲明來源鉆瓜專利網。





