[發(fā)明專利]一種基于圖表征融合的問句生成方法及裝置在審
| 申請?zhí)枺?/td> | 202011351764.7 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112487761A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 方凡;周興發(fā);饒璐;譚斌;楊蘭;孫銳;展華益 | 申請(專利權(quán))人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 四川省成都市天策商標(biāo)專利事務(wù)所 51213 | 代理人: | 陳藝文 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖表 融合 問句 生成 方法 裝置 | ||
本發(fā)明公開了一種基于圖表征融合的問句生成方法及裝置,不需要人工制定規(guī)則,能夠端到端生成問句;突破了傳統(tǒng)seq2seq只能序列化處理文本而忽略了文本結(jié)構(gòu)信息的局限,通過在文本編碼中引入依存句法信息來模仿人類的推理過程,利用文本結(jié)構(gòu)信息來優(yōu)化生成問句的質(zhì)量;給定一段文本和答案,在不依賴人工制定規(guī)則模板的條件下,能夠端到端生成問句,并且能考慮文本的依存句法等信息,使得生成的問句接近人工提問的質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明涉及文本生成技術(shù)領(lǐng)域,尤其涉及一種基于圖表征融合的問句生成方法及裝置。
背景技術(shù)
作為自然語言處理的子任務(wù),問句生成的一個關(guān)鍵應(yīng)用是為教育領(lǐng)域生成用于閱讀理解材料的問題。問句生成模塊也可以部署為聊天機器人的組件,使得在多輪對話中聊天機器人能夠提出一些問題,提升用戶的交互體驗。不僅如此,問句生成也能夠幫助機器閱讀理解任務(wù)獲取豐富的問答對,輔助機器閱讀理解模型的訓(xùn)練,從而開啟機器理解人類語言的大門。
早期研究中,問句生成的常規(guī)方法是基于規(guī)則的方法,其通常步驟可以歸納為:1.文本預(yù)處理,包括句法解析,句子簡化,語義角色標(biāo)注;2.根據(jù)規(guī)則或者語義角色標(biāo)注方法,識別需要被提問的目標(biāo);3.使用規(guī)則或模板匹配等方式生成多個問題;4.基于設(shè)計好的特征對生成問題進行排序。基于規(guī)則的方法,存在的明顯缺點包括,需要人為制定規(guī)則和模板,制定規(guī)則的成本較高,制定的規(guī)則只能針對特定領(lǐng)域、擴展性較差,可處理的問題類型有限等。
近年來研究者們不斷嘗試用神經(jīng)網(wǎng)絡(luò)做問句生成。受到機器翻譯任務(wù)的啟發(fā),神經(jīng)網(wǎng)絡(luò)的問句生成通常被定義為序列到序列(Sequence-to-Sequence,seq2seq)的學(xué)習(xí)問題,一種通常的做法是用兩個循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)分別作為編碼器和解碼器,編碼器對輸入的文本序列逐一編碼,解碼器結(jié)合注意力機制(AttentionMechanism),輸出一段問句序列。基于神經(jīng)網(wǎng)絡(luò)的方法,可以端到端進行訓(xùn)練,不需要人工制定規(guī)則,同時通過數(shù)據(jù)驅(qū)動,只要有足夠的數(shù)據(jù),不同領(lǐng)域的內(nèi)容也可以方便地復(fù)用模型。但是,神經(jīng)網(wǎng)絡(luò)方法由于普遍采用RNN做序列化編碼,與人類理解文本的推理過程不一致,而且忽略了文本的語法結(jié)構(gòu)等信息,所以生成問句的質(zhì)量仍然有待提升。
綜上所述,現(xiàn)有的方法存在的問題有:1、基于規(guī)則的方法需要人工制定規(guī)則,成本較高、規(guī)則的擴展性較差、可處理的問題類型有限;2、基于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)seq2seq的方法僅利用詞向量等特征,忽略了文本的語法結(jié)構(gòu)等信息;3、單純的seq2seq對文本進行序列化的建模,與人類理解文本的推理過程不一致,導(dǎo)致生成的問題變得生硬。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于圖表征的問句生成方法及裝置,用于解決現(xiàn)有的基于規(guī)則的方法存在規(guī)則制定成本較高、規(guī)則的擴展性較差、可處理的問題類型有限等問題,以及基于神經(jīng)網(wǎng)絡(luò)seq2seq的方法忽略了文本的語法結(jié)構(gòu)、與人類理解文本的推理過程不一致導(dǎo)致生成的問句質(zhì)量受影響等問題。
本發(fā)明通過以下技術(shù)方案來實現(xiàn)上述目的:
一種基于圖表征融合的問句生成方法,包括以下步驟:
A、初始化文本、答案的語義編碼序列;
B、通過對文本的句法分析,獲取文本每個句子的依存句法樹,構(gòu)建整個文本的依存句法圖;
C、將文本信息和答案信息進行交互,為文本編碼引入答案信息,得到文本的交互編碼;
D、基于文本的依存句法圖,結(jié)合文本的交互編碼,構(gòu)建文本的依存句法圖在兩個方向的圖表征;
E、將文本在依存句法圖兩個方向的圖表征進行融合,得到最終的圖表征;
F、根據(jù)文本的依存句法圖表征,利用問句生成模塊生成問句序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長虹電器股份有限公司,未經(jīng)四川長虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011351764.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





