[發明專利]基于預訓練語言模型的相似語句生成方法和裝置在審

申請號：	202110270871.5	申請日：	2021-03-12
公開（公告）號：	CN113807074A	公開（公告）日：	2021-12-17
發明（設計）人：	高臻;閆慧麗;顧松庠	申請（專利權）人：	京東科技控股股份有限公司
主分類號：	G06F40/194	分類號：	G06F40/194;G06F40/211;G06F40/30;G06K9/62
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	韓海花
地址：	100176 北京市北京經濟***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于訓練語言模型相似語句生成方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請提出一種基于預訓練語言模型的相似語句生成方法和裝置，其中，方法包括：獲取待處理語句；將待處理語句輸入已訓練的生成模型，獲取多個候選相似語句；根據待處理語句和多個候選相似語句，生成多個判別語句對；將多個判別語句對輸入已訓練的判別模型，獲取判別結果，以及根據判別結果從多個候選相似語句中獲取目標相似語句。由此，自動生成兼具形式多樣且語義一致的相似問題，提高相似語句生成質量和效率。

技術領域

本申請涉及人工智能技術領域，尤其涉及一種基于預訓練語言模型的相似語句生成方法和裝置。

背景技術

通常，客服機器人會不定期新增FAQ(Frequently Asked Questions，經常問到的問題)，相應就需要做相似問題多樣性擴寫。

相關技術中，由人工制定模版，只需填入相應的實體和關鍵詞完成問題擴寫，需要投入大量人力和時間來編輯模版，每有新的問題類型加入就需要訂制相應的模版，產生的句式固定，缺乏表達的多樣性。

發明內容

本申請旨在至少在一定程度上解決相關技術中的技術問題之一。

本申請提出一種基于預訓練語言模型的相似語句生成方法和裝置，以實現自動生成兼具形式多樣且語義一致的相似問題，提高相似語句生成質量和效率。

本申請第一方面實施例提出了一種基于預訓練語言模型的相似語句生成方法，包括：

獲取待處理語句；

將所述待處理語句輸入已訓練的生成模型，獲取多個候選相似語句；

根據所述待處理語句和所述多個候選相似語句，生成多個判別語句對；

將所述多個判別語句對輸入已訓練的判別模型，獲取判別結果，以及根據所述判別結果從所述多個候選相似語句中獲取目標相似語句。

本申請實施例的基于預訓練語言模型的相似語句生成方法，通過獲取待處理語句；將待處理語句輸入已訓練的生成模型，獲取多個候選相似語句；根據待處理語句和多個候選相似語句，生成多個判別語句對；將多個判別語句對輸入已訓練的判別模型，獲取判別結果，以及根據判別結果從多個候選相似語句中獲取目標相似語句。由此，自動生成兼具形式多樣且語義一致的相似問題，提高相似語句生成質量和效率。

本申請第二方面實施例提出了一種基于預訓練語言模型的相似語句生成裝置，包括：

第一獲取模塊，用于獲取待處理語句；

第一處理模塊，用于將所述待處理語句輸入已訓練的生成模型，獲取多個候選相似語句；

第一生成模塊，用于根據所述待處理語句和所述多個候選相似語句，生成多個判別語句對；

第二處理模塊，用于將所述多個判別語句對輸入已訓練的判別模型，獲取判別結果；

第二獲取模塊，用于根據所述判別結果從所述多個候選相似語句中獲取目標相似語句。

本申請實施例的基于預訓練語言模型的相似語句生成裝置，通過獲取待處理語句；將待處理語句輸入已訓練的生成模型，獲取多個候選相似語句；根據待處理語句和多個候選相似語句，生成多個判別語句對；將多個判別語句對輸入已訓練的判別模型，獲取判別結果，以及根據判別結果從多個候選相似語句中獲取目標相似語句。由此，自動生成兼具形式多樣且語義一致的相似問題，提高相似語句生成質量和效率。

本申請第三方面實施例提出了一種電子設備，包括：存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述程序時，實現如本申請第一方面實施例提出的基于預訓練語言模型的相似語句生成方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司，未經京東科技控股股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110270871.5/2.html，轉載請聲明來源鉆瓜專利網。