[發(fā)明專利]一種基于句法結構和重排序的對話生成方法有效
| 申請?zhí)枺?/td> | 201910791111.1 | 申請日: | 2019-08-26 |
| 公開(公告)號: | CN110489529B | 公開(公告)日: | 2021-12-14 |
| 發(fā)明(設計)人: | 張海軍;崔嘯霆 | 申請(專利權)人: | 哈爾濱工業(yè)大學(深圳) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/211;G06F40/289;G06N3/08;G06N20/00 |
| 代理公司: | 深圳市迪斯卓越專利代理事務所(普通合伙) 44443 | 代理人: | 閔華明;李小艷 |
| 地址: | 518055 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句法 結構 排序 對話 生成 方法 | ||
一種基于句法結構和重排序的對話生成方法,包括:A、詞性序列生成:通過使用詞性標注工具將中文對話語料轉化成詞性序列,然后使用編碼器?解碼器架構訓練出詞性序列生成模型,輸入一段詞性序列,生成出符合規(guī)則的新的詞性序列;B、詞性轉移矩陣生成:通過詞性序列生成模型,利用BeamSearch方法得到生成序列集合,然后對集合內序列進行統(tǒng)計,得到當前詞性序列生成的相應詞性轉移矩陣;C、訓練過程中的目標函數(shù)改進:根據詞性轉移矩陣,對原始對話生成過程中的目標函數(shù)進行改進以提高生成質量;D、重排序步驟:對訓練得到的對話生成模型,在預測過程中計算所有生成候選序列的句法結構混亂度,根據得分進行重排序,返回重排序后的序列作為生成結果。
技術領域
本發(fā)明屬于文本內容生成領域,尤其涉及一種基于句法結構和重排序的對話生成方法。
背景技術
在2016年的上半年中,谷歌、微軟、亞馬遜、Facebook以及蘋果這些科技巨頭公司紛紛加大在對話領域的投入,推出了一系列相關產品并且公布了新的戰(zhàn)略布局,都希望能夠搶占智能對話領域的市場。與之類似,相關的創(chuàng)業(yè)公司也如雨后春筍般不斷涌現(xiàn)。對話系統(tǒng)迅速成為了廣泛開發(fā)者討論的焦點,其根本原因是互聯(lián)網的飛速發(fā)展和人工智能領域相關技術的不斷改進的使智能對話領域的前景越發(fā)的明朗。
近年來,對話系統(tǒng)的發(fā)展絕大部分得益于深度學習技術。深度學習技術已被廣泛應用于計算機視覺、自然語言處理和推薦系統(tǒng)等領域。對于對話系統(tǒng),深度學習可以以最少的人工投入做到對大量數(shù)據來學習有意義的特性表示和響應生成策略?;ヂ?lián)網的飛速發(fā)展與普及,所積累的海量交互數(shù)據為對話領域的相關研究人員亦提供了豐富的素材。計算機硬件計算能力的大幅度提升以及深度學習的發(fā)展,使得對話系統(tǒng)的研究又迎來了一個黃金期
2014年,谷歌提出基于序列到序列的神經機器翻譯方法,引發(fā)神經機器學習的熱潮,并迅速成為許多研究機構以及工業(yè)界的主流方向。而針對開放領域的對話生成問題,其實也可以看作是一個由上句生成下句的序列到序列問題。之后有人提出可以將序列到序列的模型用在對話生成的任務中,結果發(fā)現(xiàn)取得了不錯的效果。由此開始,序列到序列模型開始走入了對話生成方面研究人員的視野,與之相關的研究越來越多。雖然機器翻譯和對話生成從結構上看有很大的相似部分,但在細節(jié)方面有許多的不同之處,使得單純的套用機器翻譯的方法在對話生成上并不能取得特別好的效果。比如說生成對話個性不一致、大概率生成“安全回復”、句法結構上不通順等等問題,都需要我們一步一步去嘗試解決。為了解決生成的對話句法結構不通順的問題,本專利依托現(xiàn)有熱門的深度學習,根據句法結構分析的相關知識與技術,提出了基于句法結構和重排序的對話生成方法。
發(fā)明內容
本發(fā)明的目的在于提供一種基于句法結構和重排序的對話生成方法,旨在解決上述的技術問題。
一種基于句法結構和重排序的對話生成方法,包括以下步驟:
A、詞性序列生成:通過使用LTP詞性標注工具將中文對話語料轉化成詞性序列,然后使用編碼器-解碼器架構訓練出詞性序列生成模型,輸入一段詞性序列,生成出符合規(guī)則的新的詞性序列;
B、詞性轉移矩陣生成:通過詞性序列生成模型,利用BeamSearch方法得到生成序列集合。然后對集合內序列進行統(tǒng)計,得到當前詞性序列相應的詞性轉移矩陣;
C、訓練過程中的目標函數(shù)改進:根據詞性轉移矩陣,對原始對話生成過程中的目標函數(shù)進行改進,以達到提高生成質量的效果;
D、重排序步驟:對訓練得到的對話生成模型,在預測過程中計算所有生成候選序列的句法結構混亂度,根據得分進行重排序,返回重排序后的序列作為生成結果。
進一步地,所述基于句法結構和重排序的對話生成方法,所述步驟A包括以下步驟:
A1、數(shù)據預處理:將所有中文訓練語料進行分詞,使用詞性標注工具,對分詞后序列進行詞性標注,得到中文對話語料對應的詞性序列數(shù)據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業(yè)大學(深圳),未經哈爾濱工業(yè)大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910791111.1/2.html,轉載請聲明來源鉆瓜專利網。





