[發(fā)明專利]一種基于軟約束的詩詞自動(dòng)生成方法在審

申請(qǐng)?zhí)枺?/td>	202110676234.8	申請(qǐng)日：	2021-06-18
公開（公告）號(hào)：	CN113420555A	公開（公告）日：	2021-09-21
發(fā)明（設(shè)計(jì)）人：	劉興宇;楊迪;楊木潤(rùn)	申請(qǐng)（專利權(quán)）人：	沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司
主分類號(hào)：	G06F40/289	分類號(hào)：	G06F40/289;G06F40/216;G06F40/30
代理公司：	沈陽新科知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 21117	代理人：	李曉光
地址：	110004 遼寧省沈陽市***	國省代碼：	遼寧;21
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于約束詩詞自動(dòng) 生成方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于軟約束的詩詞自動(dòng)生成方法，其特征在于包括以下步驟：

1)網(wǎng)上收集現(xiàn)存古詩詞數(shù)據(jù)，進(jìn)行數(shù)據(jù)清洗、分詞、關(guān)鍵詞提取預(yù)處理過程，然后以字為單位對(duì)每條詩詞數(shù)據(jù)進(jìn)行格式化處理形成訓(xùn)練數(shù)據(jù)，構(gòu)建古詩詞數(shù)據(jù)訓(xùn)練模型；

2)收集《中華通韻》中的平仄、韻腳信息數(shù)據(jù)，作為平仄和押韻的判定標(biāo)準(zhǔn)，制作詩詞平仄押韻檢測(cè)工具；

3)古詩詞數(shù)據(jù)訓(xùn)練模型并在訓(xùn)練時(shí)引入詩詞的格律信息，得到收斂后的模型參數(shù)，此模型即為古詩生成模型，之后在古詩生成模型的基礎(chǔ)上調(diào)低學(xué)習(xí)率、批量數(shù)、訓(xùn)練輪數(shù)參數(shù)并用詞數(shù)據(jù)繼續(xù)進(jìn)行訓(xùn)練，收斂后得到詞生成模型；

4)用戶輸入任意多個(gè)關(guān)鍵詞，并且指定平仄和需要的韻部，將這些信息送到古詩生成模型和/或詞生成模型中，模型自動(dòng)生成符合要求的詩詞內(nèi)容。

2.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法，其特征在于：在步驟1)中，網(wǎng)上現(xiàn)存詩詞數(shù)據(jù)進(jìn)行預(yù)處理形成訓(xùn)練數(shù)據(jù)，具體為：

101)對(duì)收集到的詩詞數(shù)據(jù)，進(jìn)行清洗和分詞，古詩中保留五言絕句、七言絕句、五言律詩、七言律詩四種體裁的數(shù)據(jù)，詞中保留詞牌頻數(shù)前200的數(shù)據(jù)，對(duì)數(shù)據(jù)中的標(biāo)點(diǎn)符號(hào)進(jìn)行統(tǒng)一，只保留逗號(hào)、句號(hào)、頓號(hào)三種標(biāo)點(diǎn)符號(hào)，經(jīng)過去重之后以字為單位進(jìn)行分詞；

102)利用tf-idf算法對(duì)每條詩詞數(shù)據(jù)提取多個(gè)關(guān)鍵詞作為輸入，隨機(jī)選取其中1-4個(gè)關(guān)鍵詞，并將其前后順序隨機(jī)打亂，各關(guān)鍵詞間用分隔符隔開，組成關(guān)鍵詞序列；

103)對(duì)分詞后的數(shù)據(jù)按照一定的方式進(jìn)行格式化，格式化的方法為：詩詞體裁+分隔符1+詩詞關(guān)鍵詞序列+分隔符2+詩詞內(nèi)容，其中詩詞的體裁有：五言絕句、七言絕句、五言律詩、七言律詩、各種詞牌名，分隔符1為[FOR]，分隔符2為[KW]；如果詞的內(nèi)容需要分節(jié)，可以在詞的內(nèi)容中再加上分隔符3[SEC]。

3.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法，其特征在于：在步驟2)中收集《中華通韻》中的平仄、韻腳信息數(shù)據(jù)，制定統(tǒng)一的識(shí)別標(biāo)準(zhǔn)，利用收集到的數(shù)據(jù)制作詩詞平仄押韻檢測(cè)工具，該工具在模型訓(xùn)練過程中對(duì)每條訓(xùn)練數(shù)據(jù)進(jìn)行平仄押韻的標(biāo)記，并將這些信息融入模型中。

4.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法，其特征在于：在步驟3)在模型中引入詩詞的格律信息，引入一套格式控制符來約束模型的生成，并以兩步驟的方式進(jìn)行訓(xùn)練，具體如下：

301)將每條數(shù)據(jù)看作一個(gè)樣本，利用構(gòu)造的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)語言模型，語言模型每加載一個(gè)批量數(shù)據(jù)，就利用平仄押韻檢測(cè)工具對(duì)批量數(shù)據(jù)中的每一條數(shù)據(jù)進(jìn)行平仄押韻標(biāo)記，得到每條數(shù)據(jù)的格律信息，之后將這些信息表示成向量形式并融合到模型的詞嵌入層；

302)用古詩數(shù)據(jù)進(jìn)行訓(xùn)練，模型收斂后得到古詩生成模型，之后調(diào)低學(xué)習(xí)率、批量數(shù)、訓(xùn)練輪數(shù)參數(shù)，用詞數(shù)據(jù)繼續(xù)進(jìn)行訓(xùn)練至收斂得到詞生成模型。

5.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法，其特征在于：在步驟4)在生成階段用戶可以指定多個(gè)關(guān)鍵詞和詩詞所需的格律，具體為：

401)將用戶輸入的關(guān)鍵詞與體裁信息按照訓(xùn)練時(shí)的方式進(jìn)行格式化：詩詞體裁+分隔符1+詩詞關(guān)鍵詞序列+分隔符2，系統(tǒng)提示輸入或選擇平仄和押韻信息，之后將構(gòu)造的輸入數(shù)據(jù)送到古詩生成模型和/或詞生成模型中；

402)模型在解碼時(shí)，按照訓(xùn)練的方式將格律的詞嵌入向量加入到對(duì)應(yīng)字的位置上，模型自動(dòng)在合適的位置預(yù)測(cè)出逗號(hào)和句號(hào)，當(dāng)模型預(yù)測(cè)的單詞為“EOS”的時(shí)候，解碼過程結(jié)束；

403)整個(gè)解碼過程采用Top-K算法，保證內(nèi)容的多樣性。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司，未經(jīng)沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110676234.8/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種兩步法確定RH精煉爐冶煉IF鋼吹氧量的方法及模型
下一篇：一種沖壓式眼鏡盒的制備工藝

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】