[發(fā)明專利]一種基于fastText和CRF的音樂領(lǐng)域命令理解方法在審
| 申請?zhí)枺?/td> | 201811044969.3 | 申請日: | 2018-09-07 |
| 公開(公告)號: | CN109242020A | 公開(公告)日: | 2019-01-18 |
| 發(fā)明(設(shè)計)人: | 李賢;段禮強(qiáng);樂雨泉 | 申請(專利權(quán))人: | 蘇州亭云智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 北京輕創(chuàng)知識產(chǎn)權(quán)代理有限公司 11212 | 代理人: | 談杰 |
| 地址: | 215000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音樂領(lǐng)域 向量 標(biāo)注 訓(xùn)練數(shù)據(jù)集合 相關(guān)參數(shù) 序列標(biāo)簽 錯誤導(dǎo)致 技術(shù)判斷 句子語義 模型訓(xùn)練 目標(biāo)序列 輸入序列 輸入樣本 意圖識別 用戶話語 求和 字性 句子 標(biāo)簽 輸出 音樂 | ||
1.一種基于fastText和CRF的音樂領(lǐng)域命令理解方法,其特征在于:
包括以下步驟:
步驟1:訓(xùn)練字向量,得到預(yù)訓(xùn)練好的字向量和訓(xùn)練數(shù)據(jù)集合;
步驟2:對從所述步驟1中所得的訓(xùn)練數(shù)據(jù)集合進(jìn)行fastText模型訓(xùn)練,從預(yù)訓(xùn)練好的字向量得到所有字的向量,進(jìn)行求和平均操作,得到句子語義向量C,把C輸入模型,通過h=tanh(Wc·C+bc)和y=softmax(U·h+bh)計算得到意圖識別結(jié)果y;其中Wc,U為神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,softmax,tanh為激活函數(shù),bc和bh為神經(jīng)網(wǎng)絡(luò)的偏置,y為輸出結(jié)果;
步驟3:將輸入樣本輸入為序列,對輸入序列每個字進(jìn)行字性標(biāo)注,輸出得到句子標(biāo)注序列標(biāo)簽,然后根據(jù)標(biāo)注序列標(biāo)簽提取出對應(yīng)的音樂實(shí)體,所述提取出對應(yīng)的音樂實(shí)體的過程為:定義X為輸入樣本隨機(jī)變量序列,Y為目標(biāo)標(biāo)注隨機(jī)變量序列,s(yi,x,i)為狀態(tài)特征,狀態(tài)特征依賴于當(dāng)前位置,t(yi-1,yi,x,i)為轉(zhuǎn)移特征,轉(zhuǎn)移特征依賴當(dāng)前和前一個位置,其中yi,yi-1是標(biāo)注序列的標(biāo)簽,x是輸入序列,i表示輸入位置,K1為轉(zhuǎn)移特征數(shù)量,K2為狀態(tài)特征數(shù)量,K=K1+K2,則可以用以下公式表示:
然后對轉(zhuǎn)移特征與狀態(tài)特征在各個位置i求和,記作:其中n表示序列長度,用wk表示特征fk(y,x)的權(quán)值,即:CRF的全局特征可以定義為此時條件隨機(jī)場可以表示成:其中訓(xùn)練樣本集合則優(yōu)化的目標(biāo)為其中M為訓(xùn)練集數(shù)目大小,調(diào)整參數(shù)W從而使得優(yōu)化目標(biāo)取得最大值,模型訓(xùn)練完成之后,即特征向量權(quán)重W求解完成,對于新來輸入序列x,通過求解以下式子得到預(yù)測標(biāo)簽序列,從而得到目標(biāo)序列標(biāo)簽:
步驟4:對步驟3中所得的所述目標(biāo)序列標(biāo)簽進(jìn)行處理,得到對應(yīng)的音樂領(lǐng)域?qū)嶓w。
2.根據(jù)權(quán)利要求1所述的一種基于fastText和CRF的音樂領(lǐng)域命令理解方法,其特征在于:所述步驟1中的訓(xùn)練字向量為采用word2vec工具用維基百科整個中文語料訓(xùn)練出預(yù)訓(xùn)練好的字向量。
3.根據(jù)權(quán)利要求1或2所述的一種基于fastText和CRF的音樂領(lǐng)域命令理解方法,其特征在于:所述的訓(xùn)練中,設(shè)置一個窗口大小為z,每次取z個字,把它們的字向量求平均作為輸入C,然后隱藏h=tanh(Wc·C+bc),最后通過全連接層得到y(tǒng)=softmax(U·h+bh),其中Wc,U為神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,softmax,tanh為激活函數(shù),bc和bh為神經(jīng)網(wǎng)絡(luò)的偏置,y為輸出結(jié)果。其要優(yōu)化的目標(biāo)為L=y(tǒng)logy'+(1-y)log(1-y'),其中y'為真實(shí)標(biāo)簽植。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州亭云智能科技有限公司,未經(jīng)蘇州亭云智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811044969.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 移動向量解碼方法和移動向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動估計的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計算機(jī)可讀存儲介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計算機(jī)可讀存儲介質(zhì)
- 近鄰向量的召回方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)
- 信息處理裝置和信息處理方法
- 信息處理裝置和信息處理方法
- 應(yīng)用于模型訓(xùn)練的樣本獲取方法及裝置、設(shè)備、存儲介質(zhì)
- 語音轉(zhuǎn)換的方法及訓(xùn)練方法、智能裝置和存儲介質(zhì)
- 數(shù)據(jù)生成裝置、預(yù)測器學(xué)習(xí)裝置、數(shù)據(jù)生成方法和學(xué)習(xí)方法
- 用于粗略和精細(xì)對象分類的神經(jīng)網(wǎng)絡(luò)
- 一種訓(xùn)練數(shù)據(jù)的生成方法及裝置
- 用于訓(xùn)練模型的方法、裝置、設(shè)備以及存儲介質(zhì)
- 模型訓(xùn)練方法、人臉識別方法、裝置、設(shè)備和介質(zhì)
- 一種車輛故障預(yù)測模型生成方法、故障預(yù)測方法及裝置





