[發明專利]對話模型的回復排序方法、裝置及計算機可讀存儲介質在審
| 申請號: | 201711395876.0 | 申請日: | 2017-12-21 |
| 公開(公告)號: | CN110019722A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 李一韓;童毅軒;姜珊珊;董濱 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F17/27 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 黃燦;姜精斌 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對話模型 排序 對話內容 回復內容 回復 計算機可讀存儲介質 句子 概率 統計 | ||
本發明實施例提供了一種對話模型的回復排序方法、裝置及計算機可讀存儲介質。本發明實施例提供的對話模型的回復排序方法,通過統計同一目標回復內容在目標對話內容以及相似對話內容下的生成概率,作為該目標回復內容的排序的評分,可以有效的提升目標回復內容中適合目標對話內容P的句子的排名,從而提升對話模型的回復質量。
技術領域
本發明涉及對話處理技術領域,具體涉及一種對話模型的回復排序方法、裝置及計算機可讀存儲介質。
背景技術
對話生成任務是針對用戶給出的對話內容(一句話或包括多個句子的一小段文本),自動輸出符合對話內容的回復內容。該回復內容通常要求語法正確且與用戶的對話內容邏輯一致。當前對話生成任務采用的技術包括基于檢索式的方法和基于生成式的方法。
具體的,基于檢索式的方法從數據庫中通過一定的度量標準找出一個句子作為回復句子(本文中亦稱為回復內容)。該方法給出的回復句子語法通常都是正確的,但存在著擴展性、適應性較差的問題。而基于生成式的方法則通過訓練神經網絡對話模型,基于神經網絡對話模型自動生成符合要求的句子作為回復。該方法具有良好的擴展性和適應性,能夠學習并理解用戶給的對話內容并作出相應的回復內容。基于生成式的方法雖然具有上述良好的性能,但當前應用中仍然存在著一些問題。
假設已有訓練好的神經網絡對話模型M,當用戶給出句子P時,神經網絡對話模型M通常會生成多個排序不同的句子,記為R。R中排序越靠前(排名越高)的句子越有可能被選為P的回復句子,也就是說,R中的句子,是按照各個句子被選為P的回復句子的概率的高低順序進行排序的。基于生成式方法的一個目標是提升高排名回復句子的質量。然而,神經網絡對話模型在訓練時,由于訓練集中詞語的分布不均,導致對不同詞語組成的句子理解程度不一,這就可能會形成排名較高的句子并不適合作為用戶句子P的一個回復句子,而適合用戶句子P的回復句子被排在較低的位置。
因此,亟需一種面向基于神經網絡的對話模型的回復排序方法,提升回復中適合用戶句子P的回復句子的排名,從而提升對話模型的回復質量。
發明內容
本發明實施例要解決的技術問題是提供一種對話模型的回復排序方法、裝置及計算機可讀存儲介質,可以有效提升回復中適合用戶對話內容的回復內容的排名,從而提升對話模型的回復質量。
為解決上述技術問題,本發明實施例提供的對話模型的回復排序方法,包括:
獲取目標對話內容在所述樣本數據集中的至少一個語義相似的相似對話內容;
以目標對話內容為輸入,獲取所述對話模型生成的至少一個目標回復內容的概率值;以及,以每個相似對話內容為輸入,獲取所述對話模型生成所述目標回復內容的概率值;
根據所生成的每個目標回復內容的概率值,統計該目標回復內容的評分,其中,該目標回復內容的評分,與該目標回復內容的概率值正相關;
根據所述評分的高低順序,對各個目標回復內容進行排序。
其中,所述獲取目標對話內容在所述樣本數據集中的至少一個語義相似的相似對話內容的步驟,包括:
根據預先選擇的語料集,訓練詞向量;
基于詞向量,計算目標對話內容以及樣本數據集中的樣本對話內容的語義向量;
根據語義向量,計算目標對話內容與各個樣本對話內容的語義相似度;
按照所述語義相似度從高到低的順序,選擇出至少一個語義相似的相似對話內容。
其中,在所述獲取目標對話內容在所述樣本數據集中的至少一個語義相似的相似對話內容的步驟之前,所述方法還包括:
基于序列到序列Seq2Seq模型,利用樣本數據集,訓練獲得所述對話模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711395876.0/2.html,轉載請聲明來源鉆瓜專利網。





