[發(fā)明專利]一種基于transformer的長(zhǎng)文本質(zhì)量分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910583213.4 | 申請(qǐng)日: | 2019-07-01 |
| 公開(公告)號(hào): | CN110347832A | 公開(公告)日: | 2019-10-18 |
| 發(fā)明(設(shè)計(jì))人: | 田文洪;莫中勤;曾柯銘;張朝陽;舒展 | 申請(qǐng)(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/33;G06K9/32;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 長(zhǎng)文本 數(shù)據(jù)表征 數(shù)據(jù)分類 質(zhì)量分析 設(shè)計(jì)復(fù)雜度 等級(jí)標(biāo)簽 加權(quán)數(shù)據(jù) 模型分析 數(shù)據(jù)標(biāo)簽 數(shù)據(jù)表示 數(shù)據(jù)采集 數(shù)據(jù)識(shí)別 數(shù)據(jù)特點(diǎn) 數(shù)據(jù)特征 數(shù)據(jù)形式 文本序列 映射 下載 分析 文本 計(jì)算機(jī) | ||
本發(fā)明公開了一種基于transformer的長(zhǎng)文本質(zhì)量分析方法,其主要特點(diǎn)是設(shè)計(jì)了一個(gè)具有長(zhǎng)文本分析能力的方法,克服了目前文本序列訓(xùn)練慢的缺點(diǎn),適應(yīng)數(shù)據(jù)特征的端到端的模型分析方法,其具體步驟包括:數(shù)據(jù)采集,從知網(wǎng)下載畢業(yè)論文;數(shù)據(jù)識(shí)別,提取PDF文本內(nèi)容;數(shù)據(jù)表示,對(duì)文本進(jìn)行處理,映射成計(jì)算機(jī)可分析的數(shù)據(jù)形式;數(shù)據(jù)標(biāo)簽,獲取質(zhì)量等級(jí)標(biāo)簽;數(shù)據(jù)表征,通過設(shè)計(jì)復(fù)雜度相當(dāng)?shù)哪P停M(jìn)行數(shù)據(jù)表征;數(shù)據(jù)分類,根據(jù)數(shù)據(jù)特點(diǎn),加權(quán)數(shù)據(jù)表征的不同特征,進(jìn)行數(shù)據(jù)分類。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種基于transformer的長(zhǎng)文本質(zhì)量分析方法。
背景技術(shù)
信息社會(huì)的發(fā)展,維基百科的條目權(quán)威性遭到懷疑,網(wǎng)絡(luò)上海量的XML文本,以及國內(nèi)大量的畢業(yè)論文都存在一定的語句不通、用詞不夠標(biāo)準(zhǔn)、重復(fù)語句過多等質(zhì)量問題,如果再使用人工編輯這將是一個(gè)很大的工作量。
國外維基百科2017年已經(jīng)在對(duì)這一領(lǐng)域提出的一個(gè)基于雙向LSTM的端到端的神經(jīng)網(wǎng)絡(luò)的方法,但文本這種非結(jié)構(gòu)化數(shù)據(jù)比較難以用計(jì)算機(jī)表征,過長(zhǎng)的文本會(huì)導(dǎo)致現(xiàn)有的模型具有梯度消失或者梯度爆炸從而失去提取文本的特征的功能,他們?cè)诰S基百科收集的條目數(shù)據(jù)集下,選擇最長(zhǎng)截取長(zhǎng)度為2000,目前acc值在0.68。
而對(duì)于現(xiàn)有的本科、碩士畢業(yè)論文,文本比維基百科的條目更長(zhǎng),目前現(xiàn)有的設(shè)計(jì)的模型都是針對(duì)300詞左右的短文本的,而對(duì)于像畢業(yè)論文這種幾萬的長(zhǎng)文本,更具有分析難度。本人在長(zhǎng)文本質(zhì)量分析這一塊做了一些工作,CNN模型即可取的中文文本0.92的F1值,但缺點(diǎn)是將長(zhǎng)文本分割成短文本進(jìn)行分析,沒有很好的表征長(zhǎng)文本整體特征。
在2018年前CNN和LSTM是自然語言處理的文本特征的主要提取器,經(jīng)過技術(shù)的不斷發(fā)展tranformer已經(jīng)是目前最優(yōu)的特征提取器,它具有快速計(jì)算、可以并行的特點(diǎn)。
通過上面分析,目前主要問題如下:
現(xiàn)有的自然語言處理模型大多是針對(duì)短文本進(jìn)行分析,缺乏具有長(zhǎng)文本分析能力,會(huì)出現(xiàn)梯度爆炸的問題,影響最終模型的泛化能力;
在的短文本分析中,RNN結(jié)構(gòu)具有訓(xùn)練慢,而應(yīng)用到長(zhǎng)文本這個(gè)問題會(huì)更加放大。
發(fā)明內(nèi)容
為了解決上述至少一個(gè)技術(shù)問題,本發(fā)明主要提供一種基于transformer的長(zhǎng)文本質(zhì)量分析方法,解決長(zhǎng)文本質(zhì)量難以評(píng)估的問題。
一種基于transformer的長(zhǎng)文本質(zhì)量分析方法,包括:數(shù)據(jù)采集,從知網(wǎng)下載畢業(yè)論文;數(shù)據(jù)識(shí)別,提取PDF文本內(nèi)容;數(shù)據(jù)表示,對(duì)文本進(jìn)行處理,映射成計(jì)算機(jī)可分析的數(shù)據(jù)形式;數(shù)據(jù)標(biāo)簽,獲取質(zhì)量等級(jí)標(biāo)簽;數(shù)據(jù)表征,通過設(shè)計(jì)復(fù)雜度相當(dāng)?shù)哪P停M(jìn)行數(shù)據(jù)表征;數(shù)據(jù)分類,根據(jù)數(shù)據(jù)特點(diǎn),加權(quán)數(shù)據(jù)表征的不同特征,進(jìn)行數(shù)據(jù)分類。
進(jìn)一步的,在所述數(shù)據(jù)識(shí)別過程中,利用OCR技術(shù)提取PDF中文本部分的內(nèi)容。
進(jìn)一步的,在所述數(shù)據(jù)表示過程中,將文本進(jìn)行分句、分詞。統(tǒng)計(jì)token詞匯表,將文本映射到詞匯表的索引,并在句子前后分別添加BOS和EOS特殊索引。
進(jìn)一步的,在所述數(shù)據(jù)標(biāo)簽過程中,利用論文上傳時(shí)間,可以提取出論文質(zhì)量等級(jí):優(yōu)、良、差。
進(jìn)一步的,在所述數(shù)據(jù)表征過程中,所述的合適模型分別是:長(zhǎng)文本模型,用于對(duì)論文中正文部分內(nèi)容質(zhì)量進(jìn)行特征提取;短文本模型,用于對(duì)碩士期間研究成果等中、英文論文進(jìn)行特征提取。
進(jìn)一步的,在所述長(zhǎng)文本模型,其具體由transformer特征提取模塊和記憶模塊組成。transformer模塊提取句子特征、記憶模塊進(jìn)行句子特征遺忘和選擇。
進(jìn)一步的,在所述transformer特征提取模塊,其主要由前饋網(wǎng)絡(luò)和self-attention組成:前饋網(wǎng)絡(luò)提取詞向量特征,self-attention提取詞與詞之間的特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910583213.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種文本聚合方法及系統(tǒng)
- 一種文本糾錯(cuò)方法及裝置
- 基于長(zhǎng)文本的信息推薦方法及裝置
- 長(zhǎng)文本預(yù)測(cè)方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于復(fù)雜網(wǎng)絡(luò)文本語意圖編碼方式的專利查重方法及系統(tǒng)
- 長(zhǎng)文本分類方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 長(zhǎng)文本匹配方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種長(zhǎng)文本分類方法及裝置
- 長(zhǎng)文本處理方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種文本匹配方法、裝置、設(shè)備及介質(zhì)
- 企業(yè)級(jí)數(shù)據(jù)管理
- 一種金融系統(tǒng)監(jiān)控方法、裝置及相關(guān)系統(tǒng)
- 一種數(shù)據(jù)表連接方法及裝置
- 虛擬場(chǎng)景中的視頻播放、數(shù)據(jù)提供方法、客戶端及服務(wù)器
- 一種網(wǎng)絡(luò)系統(tǒng)數(shù)據(jù)表征方法和裝置
- 數(shù)據(jù)濾波方法和裝置
- 一種基于transformer的長(zhǎng)文本質(zhì)量分析方法
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 標(biāo)引多重?cái)?shù)據(jù)元素內(nèi)的感興趣的數(shù)據(jù)的方法及系統(tǒng)
- 基于層次化耦合關(guān)系的離散數(shù)據(jù)表征學(xué)習(xí)方法及系統(tǒng)
- 數(shù)據(jù)分類方法及數(shù)據(jù)分類裝置
- 數(shù)據(jù)分類
- 數(shù)據(jù)分類系統(tǒng)及數(shù)據(jù)分類方法
- 數(shù)據(jù)分類
- 分類模型的監(jiān)控方法、裝置、終端以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種分類模型優(yōu)化方法、裝置及存儲(chǔ)設(shè)備、程序產(chǎn)品
- 一種數(shù)據(jù)分類方法及系統(tǒng)
- 一種數(shù)據(jù)分類優(yōu)化方法和優(yōu)化裝置
- 一種基于遷移學(xué)習(xí)的音頻分類方法
- 基于半監(jiān)督深度分類算法的數(shù)據(jù)分類方法、設(shè)備及裝置





