[發明專利]一種利用自然語言處理技術自動生成對聯的方法有效
| 申請號: | 202110415428.2 | 申請日: | 2021-04-18 |
| 公開(公告)號: | CN112883709B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/284;G06F40/289;G06F40/58;G06F16/35 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 自然語言 處理 技術 自動 生成 對聯 方法 | ||
本發明公開一種利用自然語言處理技術自動生成對聯的方法,步驟為:獲取、處理上聯?下聯數據對、關鍵詞?上聯數據對、橫批?上下聯數據對;對所有對聯數據進行分詞;搭建用于實現對對聯功能的機器翻譯模型,并使用上聯?下聯數據對對其進行訓練;根據韻腳平仄規律對模型輸出進行重排序、將對對聯過程中出現重復翻譯現象的輸出進行強制截斷,對模型輸出進行評價;搭建文本生成模型并進行訓練,使用長度懲罰系數自動調整策略對生成的對聯長度進行自動調整;搭建用于實現橫批生成功能的文本分類模型并對其進行訓練。本發明實現了對聯任務十分完整的功能,并且上下聯之間的語義契合度極高,平仄對應準確,生成的對聯與關鍵詞相關度很高,意境優美。
技術領域
本發明涉及將機器翻譯技術、文本生成技術、文本分類技術應用對聯的相關任務上,具體為一種利用自然語言處理技術自動生成對聯的方法。
背景技術
隨著機器翻譯技術、文本生成技術、文本分類技術等自然語言處理相關研究越來越受歡迎,很多學者和技術人員嘗試將其應用于日常生活中,對聯就是一個很好的例子。
目前比較成熟的“自動對聯系統”是微軟亞洲研究院自然語言計算組研發的計算機自動對聯系統。當用戶給定上聯,它能夠自動提供若干下聯供用戶選擇;并且當用戶確定一副對聯后,它還能夠生成若干四字橫批供用戶參考。除了這些基本功能外,微軟對聯系統還有下聯定字、用字推敲、機巧對聯、嵌名對聯、圖片裝裱等特色功能。通過親自體驗這套系統,發現這套系統在對下聯時提供直接方式和分詞方式,能夠給用戶提供更好的使用體驗,但以上兩種方式在上下聯語義配合方面都還存在著一些問題;與此同時,很多時候橫批與上下聯的關聯還不夠緊密;此外,對聯長度被限制在了10字以內,并且不可以含有標點。現有技術中也存在較簡陋的自動對聯系統,與微軟對聯相比,只能實現用戶給定上聯,系統自動給出下聯的功能,并且上下聯語義不搭的問題依然存在,較微軟對聯的優點在于沒有字數限制并且對聯中可以包含標點,但除了中文標點的其他符號是無法識別的。
綜合來看,目前針對自動生成對聯的研究較少,市面上的產品存在著功能不完整、生成對聯質量不佳的問題。
發明內容
針對現有技術中的上述不足,本發明提供一種利用自然語言處理技術自動生成對聯的方法,將機器翻譯技術、文本生成技術、文本分類技術應用于對聯相關任務中,將Transformer翻譯模型應用于對對聯和根據關鍵詞生成對聯的任務中,利用Transformer編碼端和池化層、softmax層實現橫批的自動生成。
為了實現上述內容,本發明采取的技術方案是:
本發明提供一種利用自然語言處理技術自動生成對聯的方法,包括以下步驟:
1)獲取、處理三種訓練數據:上聯-下聯數據對、關鍵詞-上聯數據對、橫批-上下聯數據對;
2)將所有對聯數據使用兩種方式進行分詞:結巴分詞和古詩分詞相結合的分詞方式、按字分開的分詞方式;
3)搭建用于實現對對聯功能的機器翻譯模型,并使用上聯-下聯數據對對其進行訓練,之后使用質量更好的數據對模型進行微調;
4)根據韻腳平仄規律對模型輸出進行重排序、將對對聯過程中出現的重復翻譯現象的輸出進行強制截斷,設計基于韻腳平仄檢查的評價方法對模型輸出進行評價;
5)搭建用于實現根據關鍵詞生成對聯的文本生成模型并使用關鍵詞-上聯數據對對其進行訓練,使用本發明設計的長度懲罰系數自動調整策略對生成的對聯長度進行自動調整;
6)搭建用于實現橫批生成功能的文本分類模型并使用橫批-上下聯數據對對其進行訓練。
步驟1)中,對收集到的對聯數據進行處理,主要包括關鍵詞-上聯數據對和橫批-上下聯數據對的獲取,具體如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110415428.2/2.html,轉載請聲明來源鉆瓜專利網。





