[發明專利]基于發音相似度的人機對話匹配方法、裝置及介質在審
| 申請號: | 202010547842.4 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111916085A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 陶焜 | 申請(專利權)人: | 北京愛醫聲科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/22;G10L15/10 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 李玉琦;曹素云 |
| 地址: | 100095 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 發音 相似 人機對話 匹配 方法 裝置 介質 | ||
本發明公開了一種基于發音相似度的人機對話匹配方法、裝置及介質,其中,方法包括:獲取用戶回答的字符串和多個待匹配的候選答案對應的字符串;將用戶回答的字符串和各個候選答案的字符串分別轉化為對應的發音數組;計算用戶回答對應的發音數組與每個候選答案對應的發音數組之間的編輯距離;根據所述編輯距離得到兩個字符串之間的發音相似度;根據發音相似度獲取與用戶回答匹配的候選答案。本發明可以有效提高基于語音的人機對話系統的容錯能力,實現正確的對話理解,使得對話服務更加流暢高效。
技術領域
本發明涉及人工智能技術領域,具體地,涉及一種基于發音相似度的人機對話匹配方法、裝置及介質。
背景技術
目前,智能人機對話技術已廣泛應用于智能客服信息采集領域。在此類場景下,對話機器人以選擇題或填空題的形式向用戶提出問題,收集用戶回答,通過語義理解模塊匹配到對應的選擇題答案選項或進行填空題的答案抽取。對于選擇題的語義理解常通過兩類方式計算候選答案與用戶回答之間的相似度,完成答案的匹配:1)基于文字相似度的匹配,如基于編輯距離(或稱Levenshtein距離)的方法可以計算用戶回答的字符串需要經過多少次單字符編輯操作(單字的插入、刪除或替換操作)才可以轉換成候選答案的字符串,比較兩個字符串之間的“形似”程度;2)基于詞向量(或稱詞嵌入)的語義相似度匹配,分別計算用戶回答字符串和答案字符串的語義詞向量,通過計算兩個詞向量在語義空間中的距離(如余弦相似度)判斷兩個字符串是否相似。
但是,如果人機對話服務的業務形態是人機語音對話時,其語義理解的準確率會受到語音識別準確率的影響。語音識別在強噪聲、重口音等不良因素影響下,尤其是在所說語句較短的情況下,由于缺乏足夠的上下文信息幫助,識別準確率往往不高。例如,對于候選答案“滿意”和“不滿意”,如果用戶想用語音說“不滿意”進行回答,但如果受噪聲影響或吐字不清的影響,語音識別引擎僅僅能捕捉到前兩個發音['bu4','man3'],那么由于缺少上下文,其輸出結果可能為“不滿”,也可能為“布滿”。如果語音識別模塊正確輸出為“不滿”,則還可以通過編輯距離匹配到更相近的答案項“不滿意”。但如果語音識別輸出為“布滿”,則無論基于文字相似度還是語義相似度都無法正確匹配。一般情況下,當識別的用戶回答和所有候選答案的相似度都低于一個拒識閾值時,對話引擎會處理為回答不合規,要求用戶重新回答,大大影響了用戶體驗。
因此,在基于語音的智能人機對話實際應用場景中,當用戶回答的語音識別結果受到背景強噪音、用戶口音不準、上下文信息不足等諸多因素影響時,很容易輸出錯誤的同音異形字詞,而在這種情況下,通過現有的文字/語義相似度匹配方法很難匹配到正確的候選答案。
發明內容
鑒于以上問題,本發明的目的是提供一種基于發音相似度的人機對話匹配方法、裝置及介質,以解決現有語音識別易輸出錯誤的同音異形字詞,導致人機對話很難正確匹配到候選答案的問題。
為了實現上述目的,本發明采用以下技術方案:
本發明的第一個方面是提供一種基于發音相似度的人機對話匹配方法,包括:
獲取用戶回答的字符串和多個待匹配的候選答案對應的字符串;
將用戶回答的字符串和各個候選答案的字符串分別轉化為對應的發音數組;
計算用戶回答對應的發音數組與每個候選答案對應的發音數組之間的編輯距離;
根據所述編輯距離得到兩個字符串之間的發音相似度;
根據發音相似度獲取與用戶回答匹配的候選答案。
優選地,根據所述編輯距離得到兩個字符串之間的發音相似度的公式如下:
Sim=1/Dis
其中,Sim表示發音相似度,Dis表示編輯距離。
優選地,根據所述編輯距離得到兩個字符串之間的發音相似度的公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京愛醫聲科技有限公司,未經北京愛醫聲科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010547842.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種礦井煤渣水的沉淀池及沉淀方法
- 下一篇:一種多電機動力總成結構





