[發明專利]成語潤色方法、裝置、電子設備和存儲介質在審

申請號：	202211714389.7	申請日：	2022-12-27
公開（公告）號：	CN115859974A	公開（公告）日：	2023-03-28
發明（設計）人：	申資卓;肖子豪;鞏捷甫;盛志超;宋巍;章繼東;王士進;胡國平;秦兵;劉挺	申請（專利權）人：	科大訊飛股份有限公司;河北省訊飛人工智能研究院;科大訊飛（北京）有限公司
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/30;G06F18/213
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	于平
地址：	230088 安徽省***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	成語潤色方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及人工智能技術領域，提供一種成語潤色方法、裝置、電子設備和存儲介質，其中方法包括：確定待潤色文本；基于成語潤色模型，應用所述待潤色文本中各字符的語義特征，對所述待潤色文本進行成語潤色邊界檢測，得到文本邊界，并基于所述文本邊界對應文本片段的語義特征生成潤色文本；所述成語潤色模型是基于樣本文本對、成語標簽和文本邊界標簽訓練得到的。本發明提供的成語潤色方法、裝置、電子設備和存儲介質，通過成語潤色模型，能夠實現自動生成成語潤色后的文本，從而可以幫助更快地構建成語使用體系。

技術領域

本發明涉及人工智能技術領域，尤其涉及一種成語潤色方法、裝置、電子設備和存儲介質。

背景技術

成語潤色具體是指，給出一段文字表述，若這段文字表述存在潛在的可以升格的成語，則會自動捕捉表述中的詞義、語境等信息，合理推測原文的思想表達，最終呈現出一段包含成語的潤色表述。

成語潤色使得學生可以更加有效，更加有針對性，更加容易地學習優秀的表達方法、優美的成語用法樣例等等，從而達到快速提高寫作能力，以及鍛煉學生自主學習能力的目的。

雖然現有的自然語言生成技術已經十分成熟，但是在具體任務上需要進行不同的調整，然而目前在成語潤色領域與文本生成相關的研究是不充分的，并沒有成型的成語潤色系統。

發明內容

本發明提供一種成語潤色方法、裝置、電子設備和存儲介質，用以解決現有技術中在成語潤色領域與文本生成相關的研究不充分，沒有成型的成語潤色系統的缺陷。

本發明提供一種成語潤色方法，包括：

確定待潤色文本；

基于成語潤色模型，應用所述待潤色文本中各字符的語義特征，對所述待潤色文本進行成語潤色邊界檢測，得到文本邊界，并基于所述文本邊界對應文本片段的語義特征生成潤色文本；

所述成語潤色模型是基于樣本文本對、成語標簽和文本邊界標簽訓練得到的。

根據本發明提供的成語潤色方法，所述成語潤色模型的獲取步驟包括：

獲取樣本文本對和初始模型，所述樣本文本對包括樣本輸入文本和樣本生成文本；

基于所述初始模型，應用所述樣本輸入文本中各字符的語義特征，對所述樣本輸入文本進行成語潤色邊界檢測，得到預測文本邊界，并基于所述預測文本邊界對應文本片段的語義特征生成預測潤色文本；

基于文本邊界標簽和所述預測文本邊界之間的差異，以及所述樣本生成文本和所述預測潤色文本之間的差異，對所述初始模型進行參數迭代，得到所述成語潤色模型。

根據本發明提供的成語潤色方法，所述獲取樣本文本對，包括如下步驟中的至少一種：

獲取包含成語的第一樣本文本，并對所述第一樣本文本進行反向翻譯，基于反向翻譯文本和所述第一樣本文本，確定第一樣本文本對；

獲取包含成語的第二樣本文本，基于所述第二樣本文本的改寫文本和所述第二樣本文本，確定第二樣本文本對；

獲取成語的釋義文本，并對所述成語的釋義文本進行分句，基于任一分句和所述成語確定第三樣本文本對。

根據本發明提供的成語潤色方法，所述初始模型的獲取步驟包括：

獲取第四樣本文本和語言模型；

將所述第四樣本文本中的成語，以及與所述成語相鄰的預設數量個分詞進行掩碼處理，得到掩碼文本；

基于所述第四樣本文本、所述掩碼文本以及成語標簽，對所述語言模型進行參數迭代，得到預訓練成語模型，并將所述預訓練成語模型作為所述初始模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司;河北省訊飛人工智能研究院;科大訊飛（北京）有限公司，未經科大訊飛股份有限公司;河北省訊飛人工智能研究院;科大訊飛（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211714389.7/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】