[發明專利]一種基于fastText和CRF的音樂領域命令理解方法在審
| 申請號: | 201811044969.3 | 申請日: | 2018-09-07 |
| 公開(公告)號: | CN109242020A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 李賢;段禮強;樂雨泉 | 申請(專利權)人: | 蘇州亭云智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 談杰 |
| 地址: | 215000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音樂領域 向量 標注 訓練數據集合 相關參數 序列標簽 錯誤導致 技術判斷 句子語義 模型訓練 目標序列 輸入序列 輸入樣本 意圖識別 用戶話語 求和 字性 句子 標簽 輸出 音樂 | ||
本發明涉及一種基于fastText和CRF的音樂領域命令理解方法,包括以下步驟:步驟1:訓練字向量,得到預訓練好的字向量和訓練數據集合;步驟2:對從所述步驟1中所得的訓練數據集合進行fastText模型訓練,從預訓練好的字向量得到所有字的向量,進行求和平均操作,得到句子語義向量C,把C輸入模型,通過和計算得到意圖識別結果y;步驟3:將輸入樣本輸入為序列,對輸入序列每個字進行字性標注,輸出得到句子標注序列標簽,然后根據標注序列標簽提取出對應的音樂實體;步驟4:對步驟3中所得的所述目標序列標簽進行處理,得到對應的音樂領域實體。本發明通過fastText技術判斷用戶話語是否含有音樂領域相關意圖,結合CRF進行相關參數提取,解決音樂領域相關參數提取錯誤導致意圖判斷錯誤的問題。
技術領域
本發明涉及多媒體分析技術領域,具體涉及一種基于fastText和CRF的音樂領域命令理解方法。
背景技術
對話系統是人機交互的一種相當重要的形式,也是自然語言處理過程中的一個關鍵的研究方向。在音樂領域,能否正確解析出用戶話語命令是完成用戶指定任務的基礎,在很多地方比如語音助手、音樂平臺都有很豐富的應用場景。對于用戶某條話語,條件隨機場(CRF)模型并不能很好的區分其是否表達了一個音樂領域內的意圖。CRF一般在序列標注、命名實體識別過程表現較好,但在識別音樂實體之前,需要判斷此用戶話語是否表達音樂意圖,這樣做有二個好處,一是若判斷用戶話語沒有表達音樂意圖,則不需要進行后續實體提取操作,因為此時已經完成無音樂意圖解析操作,二是若不做判斷,則很有可能一段用戶話語沒有表現音樂意圖,但是被錯誤的提取出了音樂實體,比如“劉德華的老婆是誰”這句用戶話語,若不先進行音樂意圖判斷操作,則很有可能將“劉德華”識別成歌手實體,從而這句話也被解析成音樂意圖,而實際上這句話并沒有表達音樂領域的相關意圖。本發明提出了一種基于快速文本分類(fastText)模型和條件隨機場(CRF)模型的方法,fastText模型的目標為判斷用戶的話語是否表達了一個音樂領域的意圖。若該話語確實表達了音樂領域的意圖,那么為了完成該意圖,CRF模型目標是提取該話語的相關參數(話語中的相關參數也被成為”槽”),從而本發明能更好的理解音樂領域用戶話語的命令。
現有技術大多數把這個問題定義成一個序列標注問題,輸入為句子序列,輸出目標為句子標注序列標簽,然后根據標注序列標簽就能提取出對應的音樂實體。過程如下:定義X為輸入句子隨機變量序列,Y為目標標注隨機變量序列,s(yi,x,i)是狀態特征,狀態特征依賴于當前位置,t(yi-1,yi,x,i)為轉移特征,轉移特征依賴當前和前一個位置,其中yi,yi-1是標注序列的標簽,x是輸入序列,i表示輸入位置。
我們這里統一表示狀態特征和轉移特征,
(1)假設有K1個轉移特征,K2個狀態特征,K=K1+K2,則可以用以下公式表示:
(2)然后對轉移特征與狀態特征在各個位置i求和,記作:其中n表示序列長度。用wk表示特征fk(y,x)的權值,即:CRF的全局特征可以定義為此時條件隨機場可以表示成:其中
對于訓練樣本集合我們要優化的目標為最大化其中M為訓練集數目大小。通過訓練集,我們調整參數W從而使得優化目標取得最大值。
模型訓練完成之后,即特征向量權重W求解完成,對于新來輸入序列x,我們通過求解以下式子得到預測標簽序列,從而得到音樂實體:得到y’。即是目標序列標簽,根據目標序列標簽提出實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州亭云智能科技有限公司,未經蘇州亭云智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811044969.3/2.html,轉載請聲明來源鉆瓜專利網。





