[發明專利]一種用戶意圖識別方法、裝置和計算機設備在審
| 申請號: | 202110933016.8 | 申請日: | 2021-08-13 |
| 公開(公告)號: | CN113569578A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 徐國興 | 申請(專利權)人: | 上海淇玥信息技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F40/211;G06K9/62 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 喬東峰 |
| 地址: | 201500 上海市崇明*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 意圖 識別 方法 裝置 計算機 設備 | ||
本發明提供了一種用于智能語音機器人的用戶意圖識別方法、裝置和計算機設備。該方法包括:從所述智能語音機器人與用戶之間的歷史問答文本中,提取候選特征詞,基于所述候選特征詞建立特征數據庫;構建多個意圖識別模型,所述多個意圖識別模型均包括在訓練過程中更新模型參數;獲取待處理用戶語音文本,確定相應的意圖識別模型;使用所確定的意圖識別模型,輸出所述待處理用戶語音文本的意圖預測值。本發明能夠有效提取特定特征詞,建立用于用戶意圖識別的特征數據庫,能夠有效實現歧義消解以及特定特征詞的語義統一性;構建優化模型參數的多個意圖別模型,能夠提高模型精度;能夠更精準地識別用戶意圖,并能夠實現更細粒度的用戶意圖挖掘。
技術領域
本發明涉及計算機信息處理領域,具體涉及一種用于智能語音機器人的用戶意圖識別方法、裝置和計算機設備。
背景技術
目前智能語音機器人與用戶進行交流主要依據話術進行,對單句意圖識別有較高的要求,需要識別出用戶語句的意圖,目前常用的算法有邏輯回歸、支持向量機、決策樹等。但由于語句的前后文本之間有一定聯系,目前常用的算法有較大的局限性,存在對用戶意圖識別準確率不高的問題,導致用戶投訴增多的問題。
隨著網絡技術的快速發展,海量的信息資源以文本的形式存在。如何對這些文本進行有效的分類,從海量的文本中快速、準確、全面的挖掘有效信息,已經成為了自然語言處理研究領域的熱點之一。文本分類方法是指按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別。文本分類方法屬于自然語言處理領域,一般包括數據預處理、文本特征表示、分類器選擇及效果評價等步驟,其中文本特征表示與分類器選擇最為重要,將直接影響分類結果的準確性。現有技術中,基于傳統機器學習的文本分類方法,存在易受數據集偏斜的影響,如某一類別的文檔偏多,會導致文本分類不準確。此外,還存在由于特征選擇時沒有考慮類內、類間分布偏差等導致模型精度較低等問題。
因此,有必要提供一種更快速且更精確的用戶意圖識別方法。
發明內容
為了解決現有互聯網服務的語音機器人對用戶意圖識別率不高,對用戶意圖判斷的錯誤率高,進一步提高意圖識別模型的模型精度等的技術問題。本發明的第一方面提供了一種用于智能語音機器人的用戶意圖識別方法,包括:從所述智能語音機器人與用戶之間的歷史問答文本中,提取候選特征詞,基于所述候選特征詞建立特征數據庫;構建多個意圖識別模型,所述多個意圖識別模型均包括在訓練過程中更新模型參數;獲取待處理用戶語音文本,確定相應的意圖識別模型;使用所確定的意圖識別模型,輸出所述待處理用戶語音文本的意圖預測值。
根據本發明的可選實施方式,所述在訓練過程中更新模型參數包括:在特定特征詞的語義統一性大于設定值,且所述特定特征詞的歧義消解的準確率大于特定值時,停止對所述多個意圖識別模型進行訓練。
根據本發明的可選實施方式,還包括:從所述候選特征詞中選擇與不同互聯網服務場景的特定特征詞,所述特定特征詞包括違約、逾期、延期、詢問、互聯網資源歸還時間、互聯網資源歸還方式,以及與互聯網資源服務申請、認證、使用或催收相關的特征詞。
根據本發明的可選實施方式,所述確定相應的意圖識別模型包括:對所獲取的待處理用戶語音文本進行分詞,得到各詞項;根據各詞項,判斷問答類別,以確定與所述問答類別相對應的意圖識別模型。
根據本發明的可選實施方式,所述提取候選特征詞包括:使用TF-IDF方法,對候選特征詞進行提取;計算每一個候選特征詞的貢獻度,確定候選特征詞的權重,以選出特定特征詞;
根據本發明的可選實施方式,所述基于所述候選特征詞建立特征數據庫包括:所述特征數據庫包括從候選特征詞中選出的特定特征詞、包含特定特征詞的文本句以及文本句的句向量,該文本句包括不同語義結構的多個歧義句。
根據本發明的可選實施方式,所述建立特征數據庫還包括:計算所述多個歧義句的句向量,以及所述特定特征詞對各歧義句的貢獻度,并使用該貢獻度作為所述特定特征詞在各歧義句的權重系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海淇玥信息技術有限公司,未經上海淇玥信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110933016.8/2.html,轉載請聲明來源鉆瓜專利網。





