[發(fā)明專(zhuān)利]一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810409742.8 | 申請(qǐng)日: | 2018-05-02 |
| 公開(kāi)(公告)號(hào): | CN108573068A | 公開(kāi)(公告)日: | 2018-09-25 |
| 發(fā)明(設(shè)計(jì))人: | 胡向東;許奧狄;錢(qián)宏偉;周巧;唐賢倫 | 申請(qǐng)(專(zhuān)利權(quán))人: | 重慶郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本表示 分類(lèi) 自然語(yǔ)言 測(cè)度 卷積神經(jīng)網(wǎng)絡(luò) 詞袋模型 局部連接 模型抽取 輸入文檔 文本分類(lèi) 文本特征 信念網(wǎng)絡(luò) 摘要文本 專(zhuān)業(yè)詞匯 自動(dòng)捕獲 傳統(tǒng)的 實(shí)時(shí)性 高維 降維 權(quán)重 文檔 稀疏 學(xué)習(xí) 標(biāo)簽 共享 高層 | ||
1.一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:該方法包括以下步驟:
S1:初始化,生成一個(gè)內(nèi)容為空的離線系統(tǒng)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)包括命名實(shí)體數(shù)據(jù)集、文檔詞集合數(shù)據(jù)集、基于深度學(xué)習(xí)的多層網(wǎng)絡(luò)參數(shù)三個(gè)子數(shù)據(jù)庫(kù);
S2:將采集到的數(shù)據(jù)進(jìn)行去重、清洗作為純凈數(shù)據(jù)集,將純凈數(shù)據(jù)集進(jìn)行詞性標(biāo)注并進(jìn)行命名實(shí)體識(shí)別得到命名實(shí)體數(shù)據(jù)集,然后存入命名實(shí)體數(shù)據(jù)集子數(shù)據(jù)庫(kù)中;將純凈數(shù)據(jù)集去停用詞和詞干化處理得到文檔詞集合數(shù)據(jù)集并存入文檔詞集合數(shù)據(jù)集子數(shù)據(jù)庫(kù)中;
S3:將文檔詞數(shù)據(jù)集作為word2vec詞向量模型的輸入,得到詞向量,并在得到的詞向量中引用加權(quán)系數(shù)來(lái)表示該單詞在當(dāng)前文本中的重要程度,最終得到訓(xùn)練好的詞向量模型;
S4:將步驟S3中得到詞向量模型作為CNN模型的輸入得到文檔的局部特征;
S5:將步驟S2中得到的命名實(shí)體作為全局信息的補(bǔ)充特征向量,與步驟S4中的文檔局部特征同時(shí)作為DBM模型的輸入,通過(guò)DBM模型融合命名實(shí)體特征和局部特征并對(duì)融合后的特征集進(jìn)行降維;
S6:將步驟S5中降維的特征作為DBN模型的輸入,通過(guò)DBN模型抽取得到高層文檔特征表示,然后對(duì)高層文檔特征表示進(jìn)行加標(biāo)簽處理最終得到一個(gè)層次分類(lèi)的結(jié)果,根據(jù)該層次分類(lèi)后的結(jié)果能有效提高檢索所需信息的準(zhǔn)確率。
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:在步驟S3中,在word2vec得到的詞向量中嵌入加權(quán)系數(shù)來(lái)表示這個(gè)單詞在當(dāng)前文檔中的重要程度,用于避免將出現(xiàn)頻率多的單詞誤認(rèn)為是重要程度高的單詞或?qū)㈩l率低的單詞誤認(rèn)為是重要程度低的單詞,并且能更準(zhǔn)確的判斷一個(gè)單詞在文檔中的重要程度。
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:在步驟S4中,利用卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型權(quán)重共享和局部連接的特點(diǎn)來(lái)提取文本局部特征;同時(shí)將步驟S2中提取的原文本的命名實(shí)體作為全局信息補(bǔ)充特征;再通過(guò)DBM模型融合局部特征和全局信息補(bǔ)充特征。
4.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:在步驟S5中,利用DBM深度學(xué)習(xí)模型自動(dòng)捕獲文本特征的特點(diǎn),對(duì)融合后的局部特征和全局信息補(bǔ)充特征進(jìn)行初次降維;然后再基于DBN深度學(xué)習(xí)模型繼續(xù)抽取高層文檔的特征表示,進(jìn)行進(jìn)一步降維。
5.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:在步驟S4和S5中,CNN作為一種權(quán)值共享的深度學(xué)習(xí)模型,再配合該模型局部連接減少參數(shù)變量的特點(diǎn),用于特征提取;DBM模型能夠融合文本局部特征和文本全局特征信息,在基于CNN模型并結(jié)合DBM模型的基礎(chǔ)上建立基于卷積神經(jīng)網(wǎng)絡(luò)的波爾茨曼機(jī)BM-CNN模型,用于提高對(duì)專(zhuān)業(yè)文本的處理。
6.根據(jù)權(quán)利要求5所述的一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:所述BM-CNN模型中采用兩層DBM模型,將BM-CNN模型中的CNN模型的滑動(dòng)窗口的高度設(shè)置為50,每次以50步長(zhǎng)下移滑動(dòng)窗口位置,用于避免改變word2vec得到的詞向量中每個(gè)單詞所代表的意思。
7.根據(jù)權(quán)利要求5所述的一種基于深度學(xué)習(xí)的文本表示與分類(lèi)方法,其特征在于:在所述BM-CNN模型的基礎(chǔ)上結(jié)合DBN模型建立深度卷積信念波爾茨曼機(jī)深度學(xué)習(xí)模型DCBBM,并用word2vec獲取詞向量并引入加權(quán)系數(shù)作為DCBBM模型的輸入。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810409742.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)
- 一種自然語(yǔ)言的搜索方法及系統(tǒng)
- 基于交互上下文處理自然語(yǔ)言方法
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言描述信息的生成方法及裝置
- 風(fēng)格可定制的文本生成
- 多輪預(yù)制對(duì)話
- 改變應(yīng)答以提供表現(xiàn)豐富的自然語(yǔ)言對(duì)話的方法、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言查詢的轉(zhuǎn)換
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言理解模型訓(xùn)練方法、自然語(yǔ)言理解方法及裝置
- 汽車(chē)活塞環(huán)光密封性檢測(cè)工裝
- 識(shí)別神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)源
- 分布式系統(tǒng)中多層次測(cè)度網(wǎng)絡(luò)關(guān)系構(gòu)建方法
- 識(shí)別神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)源的系統(tǒng)和方法
- 小電流接地系統(tǒng)綜合選線故障測(cè)度計(jì)算方法
- 一種城市建設(shè)水平預(yù)測(cè)系統(tǒng)
- 一種智慧城市建設(shè)測(cè)度方法
- 一種基于MATLAB軟件的深海管道綜合風(fēng)險(xiǎn)指標(biāo)評(píng)價(jià)方法
- 一種帶有噪聲相關(guān)的非線性可觀測(cè)度分析方法
- 一種建筑工程垂直度測(cè)量裝置





