[發明專利]一種基于諧音字的答非所問對話生成方法和系統有效
| 申請號: | 202110204002.2 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112818090B | 公開(公告)日: | 2023-10-03 |
| 發明(設計)人: | 梁循;吳佳辰;王偉 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 趙悅 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 諧音 答非所問 對話 生成 方法 系統 | ||
本發明屬于人工智能對話技術領域,一種基于諧音字的答非所問對話生成方法和系統,包括以下步驟:S1將提出的問題進行分詞和語義處理;S2獲得經過分詞和語義處理后的問題的關鍵詞;S3根據預建立的諧音字數據庫,對關鍵詞進行諧音字替換,并生成新的問題;S4將新的問題帶入預建立的對話回復模型,生成最終的回復。其通過對語音對話中的關鍵詞進行諧音替換,以模擬用戶聽錯了的情況,進行答非所問的回答,從而暗示對話的另一方自己對話題并不感興趣,達到結束對話的目的。
技術領域
本發明涉及一種基于諧音字的答非所問對話生成方法和系統,屬于人工智能對話技術領域。
背景技術
聊天機器人是一種用來模擬人類對話的系統,根據機器人的功能可以分為任務型聊天機器人和閑聊型聊天機器人。任務型機器人實現特定域的目標,已經在越來越多的領域發揮著作用,例如:客服機器人或咨詢機器人可以對用戶提問的關鍵詞進行反應,對一些存儲在數據庫中的簡單問答做出快速的回復,節省了人力資源成本,提高了用戶體驗;而閑聊型機器人面向開放領域,可以對任何的對話做出反應,因此這種機器人實現更加困難,所需要的知識規模更大。
聊天機器人的對話通常基于模板、檢索或生成模型等方法實現。早期的聊天機器人的對話參考人工構建的規則或者模板實現,精度比較高但靈活性不足。基于檢索的聊天機器人通過句子相似度或者類似搜索引擎的方法從大型數據庫中尋找答案。基于生成模型的方法主要采用了端到端的框架,利用神經網絡學習輸入語句和輸出語句的關系,使系統自動生成回復,但是這種方法對語料庫質量依賴度高,容易生成無意義的安全回答。
但是Siri等聊天機器人只能處理一般場景的對話,對于一些特殊的場景聊天機器人就無法給出適當的回答。例如,在社交軟件中,有一些話題用戶并不感興趣,但又不方便直接說,而對方又一直喋喋不休地說,故需要采用一些答非所問或轉移話題的方法暗示對方,自己并不想繼續這個話題了。這時就需要在手機或電腦中內嵌一個聊天機器人以托管這一類用戶不想處理的對話。然而,目前的聊天機器人只能進行簡單的對話,對于此種場景比較復雜,技巧性比較強的對話就無能為力了。
發明內容
針對上述問題,本發明的目的是提供一種基于諧音字的答非所問對話生成方法和系統,其通過對語音對話中的關鍵詞進行諧音替換,以模擬用戶聽錯了的情況,進行答非所問的回答,從而暗示對話的另一方自己對話題并不感興趣,達到結束對話的目的。
為實現上述目的,本發明采取以下技術方案:一種基于諧音字的答非所問對話生成方法,包括以下步驟:S1將提出的問題進行分詞和語義處理;S2獲得經過分詞和語義處理后的問題的關鍵詞;S3根據預建立的諧音字數據庫,對關鍵詞進行諧音字替換,并生成新的問題;S4將新的問題帶入預建立的對話回復模型,生成最終的回復。
進一步,步驟S1分詞和語義處理的具體過程包括:首先將語音形式的問題轉換為文本形式,對文本形式的問題進行分詞、詞性標注和命名實體識別,并進行語義理解。
進一步,步驟S2中統計問題的關鍵詞的具體方法包括:統計經過分詞和語義處理后的問題中各個詞出現的頻率TF和逆文本頻率IDF指數,從而生成各個詞的TF-IDF值,其中TF-IDF值最大的詞為問題的關鍵詞。
進一步,步驟S3中諧音字數據庫的預建立過程包括:首先制定包括同音字和近音字的諧音字規則;隨后獲取常用字的拼音,根據諧音字規則,獲取與常用字對應的諧音字的拼音,按照拼音獲取相應的諧音字字集;最后,去除諧音字字集中的非常用字,生成諧音字數據庫。
進一步,步驟S3中諧音字替換方法包括:S3.1根據諧音字數據庫,生成關鍵詞的諧音字替代集合;S3.2把諧音字替代集合中的候選詞依次帶回原問題中,生成新的問題;S3.3判斷新的問題是否超過預設長度,若否則進入步驟S4,若是則認為回復失敗。
進一步,步驟S4中預建立的對話回復模型為seq2seq生成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110204002.2/2.html,轉載請聲明來源鉆瓜專利網。





