[發明專利]一種利用自然語言處理技術自動生成對聯的方法有效
| 申請號: | 202110415428.2 | 申請日: | 2021-04-18 |
| 公開(公告)號: | CN112883709B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/284;G06F40/289;G06F40/58;G06F16/35 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 自然語言 處理 技術 自動 生成 對聯 方法 | ||
1.一種利用自然語言處理技術自動生成對聯的方法,其特征在于包括以下步驟:
1)獲取、處理三種訓練數據:上聯-下聯數據對、關鍵詞-上聯數據對、橫批-上下聯數據對;
2)將所有對聯數據使用兩種方式進行分詞:結巴分詞和古詩分詞相結合的分詞方式、按字分開的分詞方式;
3)搭建用于實現對對聯功能的機器翻譯模型,并使用上聯-下聯數據對對其進行訓練,之后使用質量更好的數據對模型進行微調;
4)根據韻腳平仄規律對模型輸出進行重排序、將對對聯過程中出現的重復翻譯現象的輸出進行強制截斷,設計基于韻腳平仄檢查的評價方法對模型輸出進行評價;
5)搭建用于實現根據關鍵詞生成對聯的文本生成模型并使用關鍵詞-上聯數據對對其進行訓練,使用長度懲罰系數自動調整策略對生成的對聯長度進行自動調整;
6)搭建用于實現橫批生成功能的文本分類模型并使用橫批-上下聯數據對對其進行訓練。
2.按權利要求1所述利用自然語言處理技術自動生成對聯的方法,其特征在于:步驟1)中,對收集到的對聯數據進行處理,主要包括關鍵詞-上聯數據對和橫批-上下聯數據對的獲取,具體如下:
101)用于關鍵詞生成對聯子系統訓練的數據是關鍵字與上聯一一對應的數據,這部分的上聯數據一部分從用于對對聯子系統訓練的數據中篩選出來,篩選的標準是:不含標點符號、字數為N;另一部分則是由詩詞數據中篩選出來的,篩選標準是:不含標點符號、字數為N、最后一個字為仄聲;此后,對篩選出的對聯數據進行關鍵詞抽取,得到2字、3字、4字的關鍵詞;
102)用于橫批生成的數據為橫批和對聯一一對應的數據,通過人為制造偽數據用于模型訓練;偽數據的獲取方法為:在所有的四字成語中篩選出適合做橫批的成語;將所有的橫批分類,將語義相近的橫批分作一類;對于每一類橫批使用詞向量模型獲取與其高度相關的詞語,并以此作為關鍵詞,使用根據關鍵詞生成對聯的模型生成對聯數據。
3.按權利要求1所述的利用自然語言處理技術自動生成對聯的方法,其特征在于:步驟2)中,將所有對聯數據使用兩種方式進行分詞——結巴分詞和古詩分詞相結合的分詞方式、按字分開的分詞方式,具體如下:
201)在收集的對聯數據中,針對古語對聯采用古詩詞的分詞方式,即根據對聯分句五言和七言采取二二一和二二三的分詞方式,對于標點符號默認是一個詞;針對現代語對聯,使用python自帶的結巴分詞工具對其分詞,對于標點符號默認是一個詞;
202)上下聯之間的對仗為字字對應,按字分詞的分詞方式進行分詞。
4.按權利要求1所述的利用自然語言處理技術自動生成對聯的方法,其特征在于:步驟3)中,首先使用transformer神經翻譯模型作為對對聯子模型,并使用上聯-下聯數據對對其進行訓練,之后使用質量更好的數據對模型進行微調,具體步驟為:
301)數據預處理:數據預處理階段的主要任務主要是亂碼過濾、分詞、開發集抽取、長度比過濾;其中亂碼過濾是將數據集中帶有亂碼的數據去除;分詞是借助工具將源語言和目標語言按步驟2)所述的分詞方法分開;開發集抽取是將數據集分成訓練集和開發集,其中開發集也叫驗證集,其作用是當訓練集訓練出多個模型后,為了能找到效果最佳的模型,使用各個模型對開發集數據進行預測,并記錄模型準確度,即用來調整模型參數;長度比過濾是將源語言與目標語言中分詞后句子長度不同的數據去掉;
302)生成T2T數據流:將訓練數據轉化為能夠在T2T系統中流動的數據格式,同時生成源語言單詞表和目標語言單詞表;
303)模型訓練和微調:使用普通的對聯數據對模型進行訓練,再利用提前抽取出的高質量的特殊對聯對模型進行微調,特殊對聯包括頂針聯、回文聯、數字聯、疊字聯、嵌字聯以及無情聯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110415428.2/1.html,轉載請聲明來源鉆瓜專利網。





