[發(fā)明專利]一種基于語義要素的低資源文本識別算法在審
| 申請?zhí)枺?/td> | 202011001618.1 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112131887A | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計)人: | 付勇;井友鼎;杜創(chuàng)勝;王旭峰;甘志芳;王順智 | 申請(專利權(quán))人: | 河南合眾偉奇云智科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06N3/04;G06F16/35 |
| 代理公司: | 鄭州知己知識產(chǎn)權(quán)代理有限公司 41132 | 代理人: | 季發(fā)軍 |
| 地址: | 450000 河南省鄭州市鄭東新區(qū)*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 要素 資源 文本 識別 算法 | ||
本發(fā)明提供了一種基于語義要素的低資源文本識別算法,屬于自然語言理解技術(shù)領(lǐng)域。所述方法包括:獲取文本句子,對文本句子進行編碼處理,得到編碼后的句子張量表示;對句子張量表示進行語義要素識別處理,得到語義要素識別結(jié)果;用語義要素識別結(jié)果對句子張量表示進行縮放處理;利用均值池化的方法對經(jīng)縮放的句子張量表示進行處理,得到語義要素向量表示;利用均值池化的方法對句子張量表示進行處理,得到句子向量表示;將句子向量表示與語義要素向量表示進行拼接處理,得到句子最終表示;對句子最終表示進行處理,得到最終的文本類型概率。本發(fā)明引入語義要素識別任務(wù)使模型具備識別不同語義要素的能力,大大降低了指令文本分類任務(wù)的學(xué)習(xí)難度。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言理解技術(shù)領(lǐng)域,具體涉及一種基于語義要素的低資源文本識別算法。
背景技術(shù)
近年來深度學(xué)習(xí)模型在許多自然語言理解任務(wù)上都取得了比較顯著的成果,然而基于深度學(xué)習(xí)的方法往往需要比較大量的標記數(shù)據(jù)。而且自然語言理解的應(yīng)用有比較強的場景化特性,無法直接使用公共語料資源直接開發(fā)應(yīng)用,在許多領(lǐng)域內(nèi)不同場景下,語料的標注成本比較高。
語音指令操控是一種利用語音控制系統(tǒng)的人機交互方式,通常的實現(xiàn)方法是使用語音識別技術(shù)把語音信息轉(zhuǎn)換成文本,然后通過文本分類技術(shù)對文本的指令意圖進行識別。這種場景下的語言表達方式比較少,但是對分類模型的精確度要求較高。目前本領(lǐng)域技術(shù)人員多使用BERT等神經(jīng)網(wǎng)絡(luò)語言模型進行處理,該模型能保證模型在較少數(shù)據(jù)下收斂和泛化,但是很難滿足模型的精確度要求,同時也會使模型過于龐大,無法在移動端離線部署。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,針對現(xiàn)有技術(shù)的不足,提供一種基于語義要素的低資源文本識別算法,利用語義信息增加模型的泛化能力,同時也能保證一定的精確度。
為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:一種基于語義要素的低資源文本識別算法,所述方法包括:
S1、獲取文本句子,對文本句子進行編碼處理,得到編碼后的句子張量表示;
S2、對步驟S1中得到的句子張量表示進行語義要素識別處理,得到語義要素識別結(jié)果;
S3、用步驟S2中得到的語義要素識別結(jié)果對步驟S1中得到的句子張量表示進行縮放處理;
S4、利用均值池化的方法對步驟S3中經(jīng)縮放的句子張量表示進行處理,得到語義要素向量表示;
S5、利用均值池化的方法對步驟S1中得到的句子張量表示進行處理,得到句子向量表示;
S6、將步驟S5中得到的句子向量表示與步驟S4中得到的語義要素向量表示進行拼接處理,得到句子最終表示;
S7、對步驟S6中得到的句子最終表示進行處理,得到最終的文本類型概率。
作為本發(fā)明進一步的方案:所述步驟S1中使用LSTM或者Transformer對文本句子進行編碼處理。
作為本發(fā)明進一步的方案:所述步驟S2中語義要素識別處理方法中包括sigmoid函數(shù)。
作為本發(fā)明進一步的方案:所述步驟S3中縮放處理方法為元素級別的相乘。
作為本發(fā)明進一步的方案:所述步驟S7中對句子最終表示的處理方法中包括softmax函數(shù)或sigmoid函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南合眾偉奇云智科技有限公司,未經(jīng)河南合眾偉奇云智科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011001618.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





