[發(fā)明專利]一種基于多核心詞匹配的智能語音交互方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011590317.7 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112685545A | 公開(公告)日: | 2021-04-20 |
| 發(fā)明(設(shè)計(jì))人: | 陳海江;楊逸舟;肖玉民;孫鵬;徐正旺 | 申請(專利權(quán))人: | 浙江力石科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/289;G06F40/247;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 310000 浙江省杭州市余杭區(qū)文一西*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多核 匹配 智能 語音 交互 方法 系統(tǒng) | ||
本發(fā)明屬于智能語音領(lǐng)域,具體涉及一種基于多核心詞匹配的智能語音交互方法及系統(tǒng),包括:通過分詞斷句,將輸入問題拆分成多個(gè)詞語;從多個(gè)詞語中篩選保留候選核心詞,并與現(xiàn)有同義詞相匹配,根據(jù)匹配結(jié)果得到核心詞;根據(jù)選定的核心詞來匹配潛在問題,通過計(jì)算輸入問題與問題庫潛在問題相似度,根據(jù)相似度排序獲得排名前N的潛在問題;若存在與輸入問題相似度大于設(shè)定閾值的潛在問題,則在返回對應(yīng)潛在問題的答案;若所有潛在問題與輸入問題相似度均小于設(shè)定閾值,則返回排名前N的潛在問題;若與輸入問題相似度大于設(shè)定閾值的潛在問題數(shù)量大于1,則返回其中相似度最高的潛在問題的答案。本發(fā)明保留了所有候選核心詞,最大限度保留了命中可能性,提高了命中效率。
技術(shù)領(lǐng)域
本發(fā)明屬于智能語音領(lǐng)域,具體涉及一種基于多核心詞匹配的智能語音交互方法及系統(tǒng)。
背景技術(shù)
目前主流的對話平臺(tái)主要有百度UNIT,阿里云云小蜜,騰訊微信對話平臺(tái)等。主要基于自然語言處理技術(shù)NLP(Natural Language Process)以及人工智能技術(shù)搭建的云平臺(tái)服務(wù),用戶可以在平臺(tái)構(gòu)建屬于自己的對話機(jī)器人。功能主要覆蓋于問題庫FAQ知識(shí)庫以及意圖識(shí)別多輪對話,用戶通過配置相關(guān)對話信息以實(shí)現(xiàn)機(jī)器人客服以及自動(dòng)問詢相關(guān)功能。
現(xiàn)有技術(shù)主要缺陷在于:目前主要的對話流程依然基于FAQ問題庫式的問答,但這目前對話平臺(tái)對于問答的設(shè)置僅支持單一核心詞匹配。在很多場場景下,特別是長問題過程中,單一的核心詞匹配往往容易導(dǎo)致匹配錯(cuò)誤或者回復(fù)答案與提問者意圖不一致的情況,從而導(dǎo)致較低的命中率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題就是提供一種基于多核心詞匹配的智能語音交互方法及系統(tǒng)。
為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:一種基于多核心詞匹配的智能語音交互方法,包括:
通過分詞斷句,將輸入問題拆分成多個(gè)詞語;
從多個(gè)詞語中篩選保留候選核心詞,并與現(xiàn)有同義詞相匹配,根據(jù)匹配結(jié)果得到核心詞;
根據(jù)選定的核心詞來匹配潛在問題,通過計(jì)算輸入問題與問題庫潛在問題相似度,根據(jù)相似度排序獲得排名前N的潛在問題;
若存在與輸入問題相似度大于設(shè)定閾值的潛在問題,則在返回對應(yīng)潛在問題的答案;若所有潛在問題與輸入問題相似度均小于設(shè)定閾值,則返回排名前N的潛在問題;若與輸入問題相似度大于設(shè)定閾值的潛在問題數(shù)量大于1,則返回其中相似度最高的潛在問題的答案。
優(yōu)選的,所述通過分詞斷句,將輸入問題拆分成多個(gè)詞語包括:
對于文本類輸入問題,詞選擇保留名詞性主語作為候選核心詞;
對于語音輸入問題,選擇通過保留所有名詞性的詞語短語作為候選核心詞。
優(yōu)選的,通過Jieba詞庫對輸入問題進(jìn)行分詞斷句,當(dāng)輸入問題中存在專有名詞以及特殊名詞的時(shí),利用擴(kuò)展詞庫對輸入問題進(jìn)行分詞斷句。
優(yōu)選的,所述從多個(gè)詞語中篩選保留候選核心詞包括:
所述核心詞長度不得超過8個(gè)字符且核心詞必需為最小不可分割的詞語或短語。
優(yōu)選的,所述計(jì)算輸入問題與問題庫潛在問題相似度包括:
通過對輸入問題分詞并向量化之后計(jì)算歐氏距離來代表相似度,距離越近代表輸入問題相似度越高。
一種基于多核心詞匹配的智能語音交互系統(tǒng),包括:
拆分模塊,用于通過分詞斷句,將輸入問題拆分成多個(gè)詞語;
核心詞匹配模塊,用于從多個(gè)詞語中篩選保留候選核心詞,并與現(xiàn)有同義詞相匹配,根據(jù)匹配結(jié)果得到核心詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江力石科技股份有限公司,未經(jīng)浙江力石科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011590317.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





