[發明專利]一種會話意圖智能識別模型的構建方法、裝置及設備在審
| 申請號: | 202010968430.8 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112131890A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 周鵬飛;馬亮 | 申請(專利權)人: | 北京慧辰資道資訊股份有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F16/332;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京壹川鳴知識產權代理事務所(特殊普通合伙) 11765 | 代理人: | 林潮 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 會話 意圖 智能 識別 模型 構建 方法 裝置 設備 | ||
本發明適用大數據人工智能技術領域,提供會話意圖智能識別模型的構建方法、裝置及設備,包括:獲取語料數據,所述語料數據包括已標注語料數據以及未標注語料數據;根據已標注語料數據以及預設的語義分析算法,對未標注語料數據進行處理,生成有標簽信息的意圖語料數據;根據意圖語料數據,對預設的初始意圖識別模型進行迭代訓練,構建目標意圖識別模型。本發明利用大量無標注語料數據,基于預設的語義分析算法,實現訓練語料半自動標注,僅需少量糾正即可完成大規模語料標注過程,降低語料標注成本;另外,將語料標注、模型優化問題作為一個統一任務進行迭代,實現意圖識別模型生成過程中人工干預最小化、解決數據標注耗時、模型訓練困難的問題。
技術領域
本發明屬于大數據人工智能技術領域,尤其涉及一種會話意圖智能識別模型的構建方法、裝置及設備。
背景技術
隨著社會信息化、智能化不斷發展,基于自然語言理解的智能客服、智能助手、聊天機器人等智能會話應用開始廣泛使用。意圖識別模型在人機交互會話中,分析用戶輸入信息、確認用戶交互意圖,是此類應用的核心組件,意圖識別模型的優劣對應用智能化程度和用戶體驗水平具有決定性影響。
目前意圖識別模型,主要為有監督方式訓練,需要標注大量語料,而此類應用一般面向海量互聯網用戶,用戶意圖復雜繁多且容易隨著時間而變化。現有意圖識別模型構建過程主要包括語料標注和模型訓練兩個過程,其中,語料標注、意圖修改需要花費大量人力和時間,如何快速、高效、低成本地構建意圖識別模型一直是此類應用建設中的關鍵點。現有意圖識別模型構建方法主要有:采用人工標注方式對領域文本數據集進行標注,之后進行模型訓練;或者通過聚類方法進行意圖發現及意圖語料收集,但大規模的業務數據從不同角度理解能夠得到不同的主題類別,聚類發現的主題往往并非業務所需要的,該方法遠遠無法滿足實際業務需求;或者通過模型預測結果作為指導,利用大量用戶選擇數據生成訓練樣本,但該方法使用標準樣本訓練初始預測模型,而標準樣本依賴人工標注獲取,該方法沒有解決標準樣本的標注問題,在無法獲取用戶反饋時無法利用。
由此可見,現有的意圖識別模型構建方法存在需要大量人工干預、數據標注耗時多以及模型訓練困難的問題。
發明內容
本發明實施例的目的在于提供一種會話意圖智能識別模型的構建方法,旨在解決現有的意圖識別模型構建方法存在需要人工大量干預、數據標注耗時多以及模型訓練困難的問題。
本發明實施例是這樣實現的,一種會話意圖智能識別模型的構建方法,包括:
獲取語料數據,所述語料數據包括已標注語料數據以及未標注語料數據;
根據所述已標注語料數據以及預設的語義分析算法,對所述未標注語料數據進行處理,生成有標簽信息的意圖語料數據;
根據所述意圖語料數據,對預設的初始意圖識別模型進行迭代訓練,構建目標意圖識別模型;所述初始意圖識別模型是通過所述已標注語料數據經神經網絡訓練生成;
判斷所述迭代訓練是否滿足預設的迭代結束條件;若否,則返回所述獲取語料數據的步驟;若是,則迭代訓練結束。
本發明實施例的另一目的在于一種會話意圖智能識別模型的構建裝置,包括:
語料數據獲取單元,用于獲取語料數據,所述語料數據包括已標注語料數據以及未標注語料數據;
意圖語料數據生成單元,用于根據所述已標注語料數據以及預設的語義分析算法,對所述未標注語料數據進行處理,生成有標簽信息的意圖語料數據;
迭代訓練單元,用于根據所述意圖語料數據,對預設的初始意圖識別模型進行迭代訓練,構建目標意圖識別模型;所述初始意圖識別模型是通過所述已標注語料數據經神經網絡訓練生成;以及
判斷單元,用于判斷所述迭代訓練是否滿足預設的迭代結束條件;若否,則返回所述獲取語料數據的步驟;若是,則迭代訓練結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京慧辰資道資訊股份有限公司,未經北京慧辰資道資訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010968430.8/2.html,轉載請聲明來源鉆瓜專利網。





