[發明專利]一種基于多任務學習的對話意圖識別方法及識別系統有效
| 申請號: | 202011433531.1 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112417894B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 聶桂芝;陸明名 | 申請(專利權)人: | 上海方立數碼科技有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/211;G06F40/284;G06N3/0442;G06N3/0464;G06N3/048;G06N3/084 |
| 代理公司: | 上海麥其知識產權代理事務所(普通合伙) 31257 | 代理人: | 董紅曼 |
| 地址: | 200333 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 對話 意圖 識別 方法 系統 | ||
本發明提供了一種基于多任務學習的對話意圖識別方法,包括以下步驟:S1:采集對話語料,構造Complete數據集;S2:選取部分對話,標注每個語句的意圖,構造Intent數據集;S3:劃分Intent數據集為訓練集、驗證集和測試集;S4:輸入Intent訓練集和Complete數據集,訓練多任務學習模型;S5:每完成一次訓練迭代,計算Intent驗證集的損失值;S6:選擇驗證集損失值最小時的模型作為訓練得到的最終模型;S7:利用Intent測試集評估模型性能,計算樣本準確率等評價指標;S8:將新的對話語句輸入已訓練好的模型,識別其意圖。本發明充分利用對話語句之外的輔助信息學習豐富的語句表征,以此提升意圖識別性能。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及對話意圖識別方法及識別系統。
背景技術
近年來,以對話系統為基礎的虛擬語音助手、智能音箱和智能服務機器人獲得了極大關注,逐漸發展為新的人機交互手段,也在促進大眾生活方式的變革。正確識別對話中每個語句的意圖是實現對話系統的關鍵一步,影響著對話理解的準確性以及后續處理流程。
作為一個分類問題,意圖識別方法主要有基于規則的、基于傳統機器學習、基于深度學習的等類型?;谝巹t的意圖識別需要專家設計匹配模板,只適合小規模、特定領域的對話系統?;趥鹘y機器學習的意圖識別有最大熵、隱馬爾可夫、條件隨機場、支持向量機、深度置信網絡等模型。如今,基于卷積神經網絡、循環神經網絡等深度學習模型的意圖識別成為研究的主流。
上述模型大多關注語句本身的詞法、句法和語義特征,忽視了語句之外的輪次、發言者等輔助信息,這些信息往往與意圖有著很強的關聯性。例如,提問相關的意圖多由用戶發出且位于對話開頭,回答相關的意圖則由系統發出且位于對話結尾。有效利用這些強關聯的輔助信息,勢必可以進一步提升對話意圖識別性能。
發明內容
本發明的目的是提供一種基于多任務學習的對話意圖識別方法,以有效利用與意圖有強關聯的輪次、發言者等輔助信息,充分性訓練模型,習得豐富的語句表征,從而提升意圖識別性能。
為實現上述目的,本發明提供如下技術方案:
首先,是構造Complete和Intent兩個數據集。Complete數據集主要提供輔助信息相關的訓練樣本,Intent數據集則提供意圖分類樣本。具體地,采集對話語料,構造Complete數據集;選取部分對話語料,標注每個語句的意圖,構造Intent數據集;將Intent數據集按8:1:1的比例隨機劃分為訓練集、驗證集和測試集三個部分。Complete數據集中每個對話包含多輪交互,每輪交互由輪次、發言者、語句等部分組成。語句意圖可以是初始提問、重復提問、澄清提問、后續提問、信息補充、答案回復、積極反饋、消極反饋、問候、感謝、其他中的一個或多個。初始提問指對話開始時提出的第一個問題;重復提問指重復之前的問題;后續提問指與初始提問相關的其他問題;澄清提問指請求問題相關的更多細節;信息補充指提供問題相關的更多細節;答案回復指潛在答案或解決方案;積極反饋指解決方案可行;消息反饋指解決方案不可行;問候指禮貌地問候對方;感謝指向對方表達感謝;其他指不屬于以上任何一類的意圖。Intent訓練集和驗證集用于模型訓練,訓練集則用來評估模型性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海方立數碼科技有限公司,未經上海方立數碼科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011433531.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:線粒體運動營養組合物
- 下一篇:多超越離合混合動力傳動裝置





