[發明專利]一種基于Unilm優化語言模型的中文問題生成方法在審
| 申請號: | 202111244389.0 | 申請日: | 2021-10-25 |
| 公開(公告)號: | CN114328853A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 朱磊;皎玖圓;張亞玲;姬文江;晁冰;苗文青 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/126;G06F40/211;G06F40/247;G06F40/295;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 王丹 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 unilm 優化 語言 模型 中文 問題 生成 方法 | ||
本發明公開了一種基于Unilm優化語言模型的中文問題生成方法,本發明在Unilm模型中加入每個單字和領域詞匯的相對位置信息時設置了一種相對位置遮蓋矩陣,將該矩陣融入模型不僅能學到更多的位置關系也可以在針對目標領域輸入生成問題時具有更好的效果。同時使用copy機制,使得輸出在一定程度上能從原句中拷貝,提高了輸出語句和原句的相關性。為了提高訓練數據樣本,使用了回譯與實體詞替換相結合的策略實現數據的增強。領域預訓練也被應用于模型用于增強模型在特定領域的推斷能力。基于這三個策略同樣的問答數據集本發明提出模型具有更好的效果。
技術領域
本發明屬于面向中文自然語言處理中的問題生成技術領域,提供了一種 基于Unilm優化語言模型的中文問題生成方法。
背景技術
近年來信息技術和互聯網技術迎來的爆炸式的大發展,產生了大量的信 息,同時在計算機的和大量的數據催生了人工智能的發展。這其中自然語言 處理是其中發展較為迅猛的一個,也是應用較為廣泛的一個。最常見的有智 能對話系統,和機器翻譯、打擊垃圾郵件、信息提取、文本感情分析、個性 化推薦等。
在自然語言處理領域中,智能問答系統QG(Question Generation)是其中 的熱點。智能問答系統主要應用于聊天機器人,在當今世界聊天機器人在我 們身邊隨處可見,最常見的聊天機器人就是各種智能手機中的語音助手。另 一個非常重要的應用領域是教育領域,由于當前學生在學習階段往往會接觸 大量的專業詞匯和知識,為了能夠更好的讓學生記住專業知識。老師們往往 需要人工設置題目來幫助學生記憶。問題生成模型可以幫助老師快速生成題 目樣本,最后再經過人工審查,能大幅度簡化老師的工作,減輕教學壓力。 綜上所述,生成高質量的問題不但可以推進自然語言處理方面的研究,也可 以促進,心里治療、教育等領域的發展。因此,研究可以提出高質量問題的 問答系統具有非常重要的現實意義。
近年來自注意力機制可以有效的從輸入語料中獲取上下文信息。通過大 量的文本對Transformer模型進行訓練可以使得模型學習到自然語言中上下 文的隱含關系。例如Bert、RoBert、GPT、GPT2、Unilm等,這些模型都在 NLP領域取得了優秀的表現,其中Unilm語言模型由詞嵌入層和12個 Transformer中的編碼器(encoder)以及1個Transformer中的解碼器層 (decoder)組成。并且這些模型可以針對不同的下游任務進行遷移,通過預 訓練之后,下游任務使用少量的標注文本就可以讓模型收斂,并且遷移后的 模型在下游任務具有更加優秀的表現。其中Unilm語言模型結合了其他模型 的各種遮蓋訓練思想,根據不同的具體任務,采用雙向、從左到右、從右到 左、序列到序列,不同的遮蓋思想會使得模型更擅長不同的方向。例如在文 本生成方面,使用從左到右的遮蓋思想可以提高文本得生成能力。在提高輸 入與輸出的關聯度方面有Pointer network等,(指針網絡)Pointer network是Sequence to Sequence中encoder RNN和decoder RNN的擴展。通過對輸 入的復制使得輸出中有一部分來自于輸入,提高了模型輸出與輸入的相關性, 但由于循環神經網絡一些固有的缺陷導致指針網絡并沒有較好的發揮。
發明內容
本發明的目的是提供一種基于Unilm優化語言模型的中文問題生成方 法,通過回譯和實體詞替換進行數據增強,融合和相對位置遮蓋嵌入,同時 加入特殊的copy機制,結合領域預訓練,提高了模型在目標領域的生成精 度,更高效的生成有意義的問句。
本發明所采用的技術方案是,一種基于Unilm優化語言模型的中文問題 生成方法,具體包括如下步驟:
步驟1,使用從網絡爬取的目標領域的語料對bert模型進行預訓練,獲 得參數,并將參數同步遷移至Unilm語言模型;
步驟2,使用回憶機制和隨機替換實體詞機制對中文問答數據做數據增 強處理,得到增強數據文本,將增強數據文本分為訓練集和測試集;
步驟3,構建包含相對位置遮蓋矩陣的編碼器層
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111244389.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶電鉤頭組件
- 下一篇:用于共享上下文相關的媒體內容的用戶界面





