[發明專利]一種意圖識別的方法在審
| 申請號: | 202010558040.3 | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN111881672A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 孔冬兵 | 申請(專利權)人: | 升智信息科技(南京)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 朱楨榮 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 意圖 識別 方法 | ||
本發明公開了一種意圖識別的方法,包括以下步驟:步驟一、獲取話術語境下的候選意圖的文本,對每個候選意圖的文本進行預處理;步驟二、通過TF?IDF來計算單詞的權重;步驟三、保存步驟二得到的單詞的權重,以供后續通話過程中來查詢使用;步驟四、通話過程中,對用戶輸入的文本進行預處理,計算單詞向量,再分別將預處理后的用戶輸入文本和步驟一預處理后的候選意圖中配置的標準文本轉換為向量,進而計算這兩個文本的余弦相似度;步驟五、確定與預處理后的用戶輸入文本余弦相似度最大的標準文本對應的意圖。本發明能夠利用語境下的關鍵詞信息和TF?IDF技術,提升關鍵詞的權重,從而增強意圖識別效果。
技術領域
本發明涉及智能語音對話技術領域,特別是一種意圖識別的方法。
背景技術
在一個常見的對話系統中,一般預先會定義一系列的意圖,表示該對話系統所有能夠理解和處理的意圖。并且一般對于每一個意圖,會配置一個標準文本列表,表示與該意圖相匹配的文本。然后在實際的對話過程中,將用戶表述的文本與候選的各個意圖進行比較,判斷與哪一個意圖更為接近,此過程稱之為意圖識別。
傳統的文本相似度計算,可以通過計算兩個文本之間的余弦相似度來求得。利用文本相似度來進行意圖識別,可以通過計算輸入文本與意圖標準文本列表中每個文本的相似度,并取最高分值來求得。
直接將傳統的文本相似度應用到意圖識別中存在一些問題。一方面,沒有充分利用意圖下的“關鍵詞”信息,提升關鍵詞的權重。比如在一個表達“會來參加”的意圖下,標準文本列表可能有[“我想參加”,“我會參加”,“會來參加”],此時“參加”即為關鍵詞,其權重需要比其他單詞高。
另一方面,在一個基于樹狀結構或狀態圖的對話系統中,雖然意圖是全局設置,但是每個狀態下都會有一個候選的意圖列表,在候選意圖之外的其他意圖是不做考慮的。比如在一個開場白AI問“你會來參加嗎?”的語境下,由于候選意圖包含了“會來參加”意圖,“參加”詞的權重需要提高。而在一個“你會按時付款嗎”語境下,“參加”詞則沒那么重要,此時可能“付款”更重要一點。
在智能語音對話領域,一般是利用ASR技術將用戶輸入轉換為文本,并通過計算用戶輸入文本與候選意圖的標準文本之間的文本相似度來進行意圖識別。其中文本相似度的計算,主要是依賴于傳統的余弦相似度算法,同時利用TF-IDF技術,基于不同的語境,動態地計算不同單詞的權重,優化相似度計算效果。
如今在對話系統的意圖識別中,已經有比較成熟的文本分類模型如BERT等來實現,但由于其較大的資源消耗及訓練時長,很難做到快速啟動。
發明內容
本發明所要解決的技術問題是克服現有技術的不足而提供一種意圖識別的方法,本發明增強意圖識別效果。
本發明為解決上述技術問題采用以下技術方案:
根據本發明提出的一種意圖識別的方法,包括以下步驟:
步驟一、獲取話術語境下的候選意圖的文本,對每個候選意圖的文本進行預處理;
步驟二、通過TF-IDF來計算單詞的權重;具體如下:
2.1、對于每個語境,獲取當前語境下所有候選意圖列表,長度記為N,此即為文檔總數;
2.2、對于每一個意圖,記錄該意圖下預先配置的標準文本個數為n,n表示條目數;對于意圖下的每一個單詞,計算該意圖下包含該單詞的標準文本個數c,c表示詞頻;同時計算所有出現了該單詞的意圖的個數dft,dft即為文檔頻率;
2.3、分別計算詞頻TF和逆文本頻率指數IDF,這兩者相乘得到單詞的權重;
步驟三、保存步驟二得到的單詞的權重,以供后續通話過程中來查詢使用;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于升智信息科技(南京)有限公司,未經升智信息科技(南京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010558040.3/2.html,轉載請聲明來源鉆瓜專利網。





