[發明專利]用于生成自然語言模型的方法和裝置有效
| 申請號: | 202010440926.8 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111611808B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 何燴燴;王樂義;安思宇;劉明浩;郭江亮;李旭 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06N3/0475;G06N3/0442;G06N3/0455;G06N3/084 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 自然語言 模型 方法 裝置 | ||
1.一種用于生成自然語言模型的方法,包括:
基于目標任務,確定教師任務,其中,所述目標任務用于預測文本與細粒度分類結果的對應關系,所述教師任務用于預測文本與粗粒度分類結果的對應關系;
構建自然語言模型,其中,所述自然語言模型用于預測輸入文本與細粒度分類結果的對應關系,所述自然語言模型包括用于訓練所述目標任務的目標任務模型和用于訓練所述教師任務的教師任務模型;
利用預設的文本訓練樣本集合訓練所述自然語言模型,以使所述目標任務模型和教師任務模型交互學習,包括:
針對所述文本訓練樣本集合中的文本訓練樣本,執行迭代操作:
在所述教師任務模型的長短期記憶網絡中輸入上一次迭代操作中所述目標任務模型的長短期記憶網絡的隱藏狀態輸出和該文本訓練樣本中文本樣本的樣本向量;將本次迭代操作中所述教師任務的長短期記憶網絡的隱藏狀態輸出和該文本訓練樣本中文本樣本的樣本向量輸入所述目標任務模型的長短期記憶網絡;采用本次迭代操作中所述教師任務模型的長短期記憶網絡的隱藏狀態初始化所述目標任務模型的長短期記憶網絡,采用本次迭代操作中所述目標任務模型的長短期記憶網絡的隱藏狀態初始化下一輪迭代中的教師任務模型的長短期記憶網絡;基于預設的聯合損失函數和所述文本訓練樣本標注的細粒度分類結果,得到所述自然語言模型,其中,文本訓練樣本包括標注有細粒度分類結果的文本樣本。
2.根據權利要求1所述的方法,其中,所述方法還包括:
將所述文本訓練樣本中的文本樣本輸入預先訓練的向量轉換模型,得到所述文本樣本的樣本向量。
3.根據權利要求1所述的方法,其中,所述目標任務用于預測法律案情描述文本與法律條文之間的對應關系;
所述教師任務用于預測法律案情描述文本與法律類型之間的對應關系。
4.一種用于生成自然語言模型的裝置,包括:
確定單元,被配置成基于目標任務,確定教師任務,其中,所述目標任務用于預測文本與細粒度分類結果的對應關系,所述教師任務用于預測文本與粗粒度分類結果的對應關系;
構建單元,被配置成構建自然語言模型,其中,所述自然語言模型用于預測輸入文本與細粒度分類結果的對應關系,所述自然語言模型包括用于訓練所述目標任務的目標任務模型和用于訓練所述教師任務的教師任務模型;
訓練單元,被配置成利用預設的文本訓練樣本集合訓練所述自然語言模型,以使所述目標任務模型和教師任務模型交互學習,進一步被配置成:針對所述文本訓練樣本集合中的文本訓練樣本,執行迭代操作:在所述教師任務模型的長短期記憶網絡中輸入上一次迭代操作中所述目標任務模型的長短期記憶網絡的隱藏狀態輸出和該文本訓練樣本中文本樣本的樣本向量;將本次迭代操作中所述教師任務的長短期記憶網絡的隱藏狀態輸出和該文本訓練樣本中文本樣本的樣本向量輸入所述目標任務模型的長短期記憶網絡;采用本次迭代操作中所述教師任務模型的長短期記憶網絡的隱藏狀態初始化所述目標任務模型的長短期記憶網絡,采用本次迭代操作中所述目標任務模型的長短期記憶網絡的隱藏狀態初始化下一輪迭代中的教師任務模型的長短期記憶網絡;基于預設的聯合損失函數和所述文本訓練樣本標注的細粒度分類結果,得到所述自然語言模型,其中,文本訓練樣本包括標注有細粒度分類結果的文本樣本。
5.根據權利要求4所述的裝置,其中,所述裝置還包括:
輸入單元,被配置成將所述文本訓練樣本中的文本樣本輸入預先訓練的向量轉換模型,得到所述文本樣本的樣本向量。
6.根據權利要求4所述的裝置,其中,所述目標任務用于預測法律案情描述文本與法律條文之間的對應關系;
所述教師任務用于預測法律案情描述文本與法律類型之間的對應關系。
7.一種電子設備,其中,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求1-3中任一項所述的方法。
8.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行權利要求1-3中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010440926.8/1.html,轉載請聲明來源鉆瓜專利網。





