[發(fā)明專利]一種中文請求文本意圖分析方法在審
| 申請?zhí)枺?/td> | 202011463898.8 | 申請日: | 2020-12-11 |
| 公開(公告)號(hào): | CN112446219A | 公開(公告)日: | 2021-03-05 |
| 發(fā)明(設(shè)計(jì))人: | 劉光毅 | 申請(專利權(quán))人: | 四川長虹電器股份有限公司 |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/289;G06F40/242;G06N3/04 |
| 代理公司: | 四川省成都市天策商標(biāo)專利事務(wù)所 51213 | 代理人: | 劉興亮 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 請求 文本 意圖 分析 方法 | ||
本發(fā)明公開了一種中文請求文本意圖分析方法,通過利用膨脹卷積神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制,有效解決短文本特征表示,后續(xù)結(jié)合動(dòng)詞詞典的驗(yàn)證,關(guān)注能表示MUSIC相關(guān)意圖的動(dòng)詞關(guān)鍵詞,識(shí)別用戶請求意圖;利用膨脹卷積升級(jí)網(wǎng)絡(luò)有效提取請求短文本上下文有效信息,IDCNN隱藏層引入注意力權(quán)重調(diào)整,對關(guān)鍵信息進(jìn)行調(diào)整,提高模型對意圖的判斷準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種中文請求文本意圖分析方法。
背景技術(shù)
意圖識(shí)別是自然語言處理中的一個(gè)方向,常用的方法有:基于詞典模板的規(guī)則分類、基于過往日志匹配(適用于搜索引擎)、基于分類模型進(jìn)行意圖識(shí)別。這三種方式基本上是目前比較主流的方法。基于詞典的模板規(guī)則匹配通用性有限,當(dāng)請求文本發(fā)生變化時(shí)(無法預(yù)測用戶請求的說法),容易出現(xiàn)識(shí)別失誤的情況。基于日志匹配的方法不適用于電視上語音交互系統(tǒng)。分類模型的方法難點(diǎn)主要是兩點(diǎn),一點(diǎn)是數(shù)據(jù)來源的匱乏,因?yàn)榉椒ㄒ呀?jīng)比較固定,基本都是有監(jiān)督學(xué)習(xí),需要很多的標(biāo)記數(shù)據(jù)。第二點(diǎn)是盡管是分類工作,但是意圖識(shí)別分類種類很多,并且要求的準(zhǔn)確性,拓展性都不是之前的分類可比的,這一點(diǎn)也是很困難的。
意力機(jī)制是在信息處理時(shí)選擇性地集中于某些重要的信息的一種機(jī)制,而忽略和關(guān)注目標(biāo)意義相關(guān)性較弱的一種信息處理機(jī)制,它強(qiáng)調(diào)在信息處理時(shí)更關(guān)注信息的本質(zhì)方面的信息它將有限的資源集中于重要的信息的處理,從而取得了巨大的成功。注意力(Attention)機(jī)制在圖像識(shí)別、自動(dòng)翻譯等領(lǐng)域已經(jīng)取得了巨大的成功。結(jié)合本文的主題,在處理情感分析的時(shí)候,可以更加關(guān)注和重要情感詞有關(guān)的信息從而提高情感分類的準(zhǔn)確度。卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以獲取輸入數(shù)據(jù)的特征值,但是處理文本容易丟失上下文信息,膨脹卷積解決了這一問題可以更好地獲取上下文關(guān)鍵特征,結(jié)合注意力機(jī)制將意圖關(guān)鍵詞融合到模型當(dāng)中,提高對意圖的識(shí)別判斷準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明針對用戶向電視發(fā)出請求時(shí),電視無法正確返回用戶期望的意圖,造成用戶使用體驗(yàn)不佳的問題而提供一種中文請求文本意圖分析方法,本專利在MUSIC領(lǐng)域中分析請求意圖,是能正確返回用戶期望,提高用戶使用體驗(yàn)。本專利使用IDCNN+attention(膨脹卷機(jī)網(wǎng)絡(luò)結(jié)合注意力機(jī)制)給用戶請求文本進(jìn)行意圖預(yù)測,得出模型預(yù)測意圖。在后續(xù)結(jié)合簡單的字典驗(yàn)證,提高意圖的識(shí)別率,提高用戶對產(chǎn)品的使用體驗(yàn)。
本發(fā)明通過以下技術(shù)方案來實(shí)現(xiàn)上述目的:
一種中文請求文本意圖分析方法,包括以下步驟:
步驟1,用戶數(shù)據(jù)處理,動(dòng)詞詞典構(gòu)造,意圖目錄構(gòu)造;
步驟2,分詞、Word2vec詞向量訓(xùn)練,構(gòu)造詞匯表;
步驟3,IDCNN學(xué)習(xí)訓(xùn)練;
步驟4,注意力機(jī)制調(diào)整權(quán)重;
步驟5,對有表達(dá)明顯意圖的動(dòng)詞關(guān)鍵詞作為判斷關(guān)鍵,加入規(guī)則輔助判斷預(yù)測結(jié)果,輸出對用戶請求的意圖判斷。
進(jìn)一步方案為,所述步驟1中,收集MUSIC相關(guān)漢語動(dòng)詞構(gòu)造詞典,由意圖種類構(gòu)建意圖目錄;從電視端采集用戶在MUSIC領(lǐng)域的請求數(shù)據(jù),結(jié)合音樂評(píng)論、KTV評(píng)論相關(guān)網(wǎng)頁評(píng)論中含有表達(dá)意圖的評(píng)論,篩選后作為原始數(shù)據(jù)集,分別收集不同意圖的文本儲(chǔ)存于不同文件中,人工給數(shù)據(jù)集標(biāo)注意圖。
進(jìn)一步方案為,所述步驟2中,將步驟1中清洗的數(shù)據(jù)分詞后,構(gòu)建相應(yīng)詞匯變,通過Word2vec訓(xùn)練64維的詞向量;
將數(shù)據(jù)通過分詞系統(tǒng)有效分成完整實(shí)體的詞匯,再由此構(gòu)建大小為5000的詞匯表。
進(jìn)一步方案為,所述步驟3中,將短文本采用詞向量表示之后,構(gòu)建膨脹卷積神經(jīng)網(wǎng)絡(luò),輸入單元X={x1,x2,...,xt},其中每個(gè)xi(i=1,2,...,t)為詞向量,隱含層包含前向傳播層和后向傳播層。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長虹電器股份有限公司,未經(jīng)四川長虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011463898.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 用于意圖挖掘的方法和設(shè)備
- 意圖估計(jì)裝置以及意圖估計(jì)方法
- 意圖識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 意圖確認(rèn)方法及裝置
- 搜索意圖識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語句多意圖識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對話系統(tǒng)中意圖沖突的解決方法、系統(tǒng)及裝置
- 信息通信網(wǎng)絡(luò)的意圖轉(zhuǎn)譯方法、系統(tǒng)、介質(zhì)及交互接口
- 語音對話的意圖識(shí)別方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 意圖識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





