[發(fā)明專利]一種基于軟約束的詩詞自動(dòng)生成方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110676234.8 | 申請(qǐng)日: | 2021-06-18 |
| 公開(公告)號(hào): | CN113420555A | 公開(公告)日: | 2021-09-21 |
| 發(fā)明(設(shè)計(jì))人: | 劉興宇;楊迪;楊木潤(rùn) | 申請(qǐng)(專利權(quán))人: | 沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/216;G06F40/30 |
| 代理公司: | 沈陽新科知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 約束 詩詞 自動(dòng) 生成 方法 | ||
1.一種基于軟約束的詩詞自動(dòng)生成方法,其特征在于包括以下步驟:
1)網(wǎng)上收集現(xiàn)存古詩詞數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、分詞、關(guān)鍵詞提取預(yù)處理過程,然后以字為單位對(duì)每條詩詞數(shù)據(jù)進(jìn)行格式化處理形成訓(xùn)練數(shù)據(jù),構(gòu)建古詩詞數(shù)據(jù)訓(xùn)練模型;
2)收集《中華通韻》中的平仄、韻腳信息數(shù)據(jù),作為平仄和押韻的判定標(biāo)準(zhǔn),制作詩詞平仄押韻檢測(cè)工具;
3)古詩詞數(shù)據(jù)訓(xùn)練模型并在訓(xùn)練時(shí)引入詩詞的格律信息,得到收斂后的模型參數(shù),此模型即為古詩生成模型,之后在古詩生成模型的基礎(chǔ)上調(diào)低學(xué)習(xí)率、批量數(shù)、訓(xùn)練輪數(shù)參數(shù)并用詞數(shù)據(jù)繼續(xù)進(jìn)行訓(xùn)練,收斂后得到詞生成模型;
4)用戶輸入任意多個(gè)關(guān)鍵詞,并且指定平仄和需要的韻部,將這些信息送到古詩生成模型和/或詞生成模型中,模型自動(dòng)生成符合要求的詩詞內(nèi)容。
2.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法,其特征在于:在步驟1)中,網(wǎng)上現(xiàn)存詩詞數(shù)據(jù)進(jìn)行預(yù)處理形成訓(xùn)練數(shù)據(jù),具體為:
101)對(duì)收集到的詩詞數(shù)據(jù),進(jìn)行清洗和分詞,古詩中保留五言絕句、七言絕句、五言律詩、七言律詩四種體裁的數(shù)據(jù),詞中保留詞牌頻數(shù)前200的數(shù)據(jù),對(duì)數(shù)據(jù)中的標(biāo)點(diǎn)符號(hào)進(jìn)行統(tǒng)一,只保留逗號(hào)、句號(hào)、頓號(hào)三種標(biāo)點(diǎn)符號(hào),經(jīng)過去重之后以字為單位進(jìn)行分詞;
102)利用tf-idf算法對(duì)每條詩詞數(shù)據(jù)提取多個(gè)關(guān)鍵詞作為輸入,隨機(jī)選取其中1-4個(gè)關(guān)鍵詞,并將其前后順序隨機(jī)打亂,各關(guān)鍵詞間用分隔符隔開,組成關(guān)鍵詞序列;
103)對(duì)分詞后的數(shù)據(jù)按照一定的方式進(jìn)行格式化,格式化的方法為:詩詞體裁+分隔符1+詩詞關(guān)鍵詞序列+分隔符2+詩詞內(nèi)容,其中詩詞的體裁有:五言絕句、七言絕句、五言律詩、七言律詩、各種詞牌名,分隔符1為[FOR],分隔符2為[KW];如果詞的內(nèi)容需要分節(jié),可以在詞的內(nèi)容中再加上分隔符3[SEC]。
3.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法,其特征在于:在步驟2)中收集《中華通韻》中的平仄、韻腳信息數(shù)據(jù),制定統(tǒng)一的識(shí)別標(biāo)準(zhǔn),利用收集到的數(shù)據(jù)制作詩詞平仄押韻檢測(cè)工具,該工具在模型訓(xùn)練過程中對(duì)每條訓(xùn)練數(shù)據(jù)進(jìn)行平仄押韻的標(biāo)記,并將這些信息融入模型中。
4.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法,其特征在于:在步驟3)在模型中引入詩詞的格律信息,引入一套格式控制符來約束模型的生成,并以兩步驟的方式進(jìn)行訓(xùn)練,具體如下:
301)將每條數(shù)據(jù)看作一個(gè)樣本,利用構(gòu)造的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)語言模型,語言模型每加載一個(gè)批量數(shù)據(jù),就利用平仄押韻檢測(cè)工具對(duì)批量數(shù)據(jù)中的每一條數(shù)據(jù)進(jìn)行平仄押韻標(biāo)記,得到每條數(shù)據(jù)的格律信息,之后將這些信息表示成向量形式并融合到模型的詞嵌入層;
302)用古詩數(shù)據(jù)進(jìn)行訓(xùn)練,模型收斂后得到古詩生成模型,之后調(diào)低學(xué)習(xí)率、批量數(shù)、訓(xùn)練輪數(shù)參數(shù),用詞數(shù)據(jù)繼續(xù)進(jìn)行訓(xùn)練至收斂得到詞生成模型。
5.按權(quán)利要求1所述的基于軟約束的詩詞自動(dòng)生成方法,其特征在于:在步驟4)在生成階段用戶可以指定多個(gè)關(guān)鍵詞和詩詞所需的格律,具體為:
401)將用戶輸入的關(guān)鍵詞與體裁信息按照訓(xùn)練時(shí)的方式進(jìn)行格式化:詩詞體裁+分隔符1+詩詞關(guān)鍵詞序列+分隔符2,系統(tǒng)提示輸入或選擇平仄和押韻信息,之后將構(gòu)造的輸入數(shù)據(jù)送到古詩生成模型和/或詞生成模型中;
402)模型在解碼時(shí),按照訓(xùn)練的方式將格律的詞嵌入向量加入到對(duì)應(yīng)字的位置上,模型自動(dòng)在合適的位置預(yù)測(cè)出逗號(hào)和句號(hào),當(dāng)模型預(yù)測(cè)的單詞為“EOS”的時(shí)候,解碼過程結(jié)束;
403)整個(gè)解碼過程采用Top-K算法,保證內(nèi)容的多樣性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110676234.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





