[發(fā)明專利]一種基于語(yǔ)義增強(qiáng)的短文本分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810090256.4 | 申請(qǐng)日: | 2018-01-30 |
| 公開(kāi)(公告)號(hào): | CN108280206B | 公開(kāi)(公告)日: | 2020-05-26 |
| 發(fā)明(設(shè)計(jì))人: | 尹忠博;羅威;羅準(zhǔn)辰;譚玉珊;武帥;牛海波;毛彬;田昌海;葉宇銘 | 申請(qǐng)(專利權(quán))人: | 尹忠博;中國(guó)人民解放軍軍事科學(xué)院軍事科學(xué)信息研究中心 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京方安思達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 陳琳琳;武玥 |
| 地址: | 100142 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語(yǔ)義 增強(qiáng) 文本 分類 方法 | ||
本發(fā)明公開(kāi)了一種基于語(yǔ)義增強(qiáng)的短文本分類方法,所述方法包括:步驟1)構(gòu)建短文本分類器,從互聯(lián)網(wǎng)資源中獲取領(lǐng)域相關(guān)的短文本訓(xùn)練集,對(duì)每一條短文本進(jìn)行擴(kuò)充語(yǔ)料和訓(xùn)練詞向量,訓(xùn)練短文本分類器;步驟2)對(duì)待分類的短文本進(jìn)行擴(kuò)充語(yǔ)料和訓(xùn)練詞向量后,輸入步驟1)的短文本分類器進(jìn)行分類,得到分類結(jié)果。本發(fā)明提供了一整套短文本語(yǔ)義增強(qiáng)并對(duì)其進(jìn)行文本分類的方法,針對(duì)短文本信息量少、語(yǔ)義稀疏的特點(diǎn),利用高質(zhì)量擴(kuò)充語(yǔ)料、高精度詞向量的方法對(duì)短文本進(jìn)行語(yǔ)義增強(qiáng)表示,同時(shí),本發(fā)明使用高效的文本分類算法,最大限度的捕捉文本有限特征,并有效縮短了分類器的訓(xùn)練時(shí)間。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算語(yǔ)言學(xué)領(lǐng)域,尤其涉及計(jì)算機(jī)自然語(yǔ)言處理領(lǐng)域,特別涉及一種基于語(yǔ)義增強(qiáng)的短文本分類方法。
背景技術(shù)
目前,隨著電子科技產(chǎn)業(yè)的迅速發(fā)展,我們生活中每天都有眾多的微博、評(píng)論、微信等短文本通過(guò)網(wǎng)絡(luò)傳遞到我們的移動(dòng)終端,這些短文本信息呈現(xiàn)出爆炸式的快速增長(zhǎng)。為了更好的應(yīng)對(duì)如此快速增長(zhǎng)的信息量,文本分類技術(shù)應(yīng)運(yùn)而生。短文本具有文本信息量少和特征稀疏等特點(diǎn),因此相對(duì)長(zhǎng)文本,短文本自動(dòng)分類的實(shí)現(xiàn)更具挑戰(zhàn)。面對(duì)這一挑戰(zhàn),研究者們針對(duì)短文本的內(nèi)容較短和特征稀疏特點(diǎn),對(duì)短文本進(jìn)行語(yǔ)料擴(kuò)充,然后再對(duì)擴(kuò)展后的文本使用已有分類方法分類。短文本擴(kuò)充的方法大體可以分成兩類:利用網(wǎng)絡(luò)資源、領(lǐng)域詞匯表等外部相關(guān)資源對(duì)短文本進(jìn)行擴(kuò)充;構(gòu)建或使用已有的知識(shí)庫(kù)、概率主題模型(Latent Dirichlet Allocation,LDA)抽取短文本中特征相關(guān)的實(shí)體、主題內(nèi)容,從而達(dá)到擴(kuò)充語(yǔ)料目的。同時(shí),為了更精確的表示短文本僅有的特征間的語(yǔ)義聯(lián)系,近來(lái)眾多研究者使用已有信息訓(xùn)練詞向量,從而降其添加到分類器中提高分類性能。分類方法上,諸多學(xué)者將目前熱門(mén)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法應(yīng)用在短文本分類上從而取得了不錯(cuò)的分類效果。
然而,目前的短文本語(yǔ)料擴(kuò)充方法過(guò)于復(fù)雜,擴(kuò)充語(yǔ)料的質(zhì)量無(wú)法保證;同時(shí),目前諸多方法使用深度學(xué)習(xí)算法構(gòu)建的詞向量表示語(yǔ)義關(guān)系,除使用不同算法訓(xùn)練詞向量外,詞向量對(duì)語(yǔ)義的表示效果主要依賴于訓(xùn)練詞向量的訓(xùn)練集,而已有方法都使用未加工的現(xiàn)成語(yǔ)料作為訓(xùn)練集。由于已有語(yǔ)料包含范圍廣、冗余信息多,因此無(wú)法準(zhǔn)確表達(dá)語(yǔ)義關(guān)系。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有短文本語(yǔ)料擴(kuò)充方法過(guò)于復(fù)雜、擴(kuò)充語(yǔ)料質(zhì)量較低、詞向量訓(xùn)練集不精準(zhǔn)的缺陷,提出一種較為簡(jiǎn)單的高質(zhì)量語(yǔ)料擴(kuò)充方法,從而在對(duì)短文本進(jìn)行高質(zhì)量語(yǔ)料擴(kuò)充和使用精準(zhǔn)語(yǔ)料訓(xùn)練詞向量?jī)煞矫嬖鰪?qiáng)了語(yǔ)義表示性能。
為了實(shí)現(xiàn)以上目的,本發(fā)明提出了一種基于語(yǔ)義增強(qiáng)的短文本分類方法,所述方法包括:
步驟1)構(gòu)建短文本分類器,從互聯(lián)網(wǎng)資源中獲取領(lǐng)域相關(guān)的短文本訓(xùn)練集,對(duì)每一條短文本進(jìn)行擴(kuò)充語(yǔ)料和訓(xùn)練詞向量,訓(xùn)練短文本分類器;
步驟2)對(duì)待分類的短文本進(jìn)行擴(kuò)充語(yǔ)料和訓(xùn)練詞向量后,輸入步驟1)的短文本分類器進(jìn)行分類,得到分類結(jié)果。
作為上述方法的一種改進(jìn),所述步驟1)包括:
步驟101)使用短文本訓(xùn)練集中的每一條短文本信息作為互聯(lián)網(wǎng)搜索引擎的輸入檢索關(guān)鍵詞信息,選取相似性最高的第一條檢索結(jié)果作為擴(kuò)充語(yǔ)料;
步驟102)抽取出第一條檢索結(jié)果的標(biāo)題信息、摘要信息以及關(guān)鍵詞信息作為語(yǔ)料,并將其作為原短文本信息的附加語(yǔ)料;
步驟103)從擴(kuò)充語(yǔ)料中得到高質(zhì)量領(lǐng)域相關(guān)語(yǔ)料,對(duì)該語(yǔ)料進(jìn)行切分詞匯、去除停用詞操作得到清潔語(yǔ)料,然后使用計(jì)算關(guān)鍵詞方法再一次提取關(guān)鍵詞,將再次提取的關(guān)鍵詞附加在清潔語(yǔ)料后,最后將附加關(guān)鍵詞的清潔語(yǔ)料作為新訓(xùn)練集訓(xùn)練詞向量,從而得到精準(zhǔn)語(yǔ)義詞向量;
步驟104)將語(yǔ)料擴(kuò)充階段得到的高質(zhì)量領(lǐng)域相關(guān)語(yǔ)料作為訓(xùn)練段文本分類器的訓(xùn)練集,與步驟103)得到的精準(zhǔn)語(yǔ)義關(guān)系詞向量作為輔助信息聯(lián)合起來(lái),訓(xùn)練短文本分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于尹忠博;中國(guó)人民解放軍軍事科學(xué)院軍事科學(xué)信息研究中心,未經(jīng)尹忠博;中國(guó)人民解放軍軍事科學(xué)院軍事科學(xué)信息研究中心許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810090256.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





