[發(fā)明專利]一種基于語義增強(qiáng)的短文本分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810090256.4 | 申請(qǐng)日: | 2018-01-30 |
| 公開(公告)號(hào): | CN108280206B | 公開(公告)日: | 2020-05-26 |
| 發(fā)明(設(shè)計(jì))人: | 尹忠博;羅威;羅準(zhǔn)辰;譚玉珊;武帥;牛海波;毛彬;田昌海;葉宇銘 | 申請(qǐng)(專利權(quán))人: | 尹忠博;中國(guó)人民解放軍軍事科學(xué)院軍事科學(xué)信息研究中心 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京方安思達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 陳琳琳;武玥 |
| 地址: | 100142 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 增強(qiáng) 文本 分類 方法 | ||
1.一種基于語義增強(qiáng)的短文本分類方法,所述方法包括:
步驟1)構(gòu)建短文本分類器,從互聯(lián)網(wǎng)資源中獲取領(lǐng)域相關(guān)的短文本訓(xùn)練集,對(duì)每一條短文本進(jìn)行擴(kuò)充語料和訓(xùn)練詞向量,訓(xùn)練短文本分類器;
步驟2)對(duì)待分類的短文本進(jìn)行擴(kuò)充語料和訓(xùn)練詞向量后,輸入步驟1)的短文本分類器進(jìn)行分類,得到分類結(jié)果;
所述步驟1)包括:
步驟101)使用短文本訓(xùn)練集中的每一條短文本信息作為互聯(lián)網(wǎng)搜索引擎的輸入檢索關(guān)鍵詞信息,選取相似性最高的第一條檢索結(jié)果作為擴(kuò)充語料;
步驟102)抽取出第一條檢索結(jié)果的標(biāo)題信息、摘要信息以及關(guān)鍵詞信息作為語料,并將其作為原短文本信息的附加語料;
步驟103)從擴(kuò)充語料中得到高質(zhì)量領(lǐng)域相關(guān)語料,對(duì)該語料進(jìn)行切分詞匯、去除停用詞操作得到清潔語料,然后使用計(jì)算關(guān)鍵詞方法再一次提取關(guān)鍵詞,將再次提取的關(guān)鍵詞附加在清潔語料后,最后將附加關(guān)鍵詞的清潔語料作為新訓(xùn)練集訓(xùn)練詞向量,從而得到精準(zhǔn)語義詞向量;
步驟104)將語料擴(kuò)充階段得到的高質(zhì)量領(lǐng)域相關(guān)語料作為訓(xùn)練段文本分類器的訓(xùn)練集,與步驟103)得到的精準(zhǔn)語義關(guān)系詞向量作為輔助信息聯(lián)合起來,訓(xùn)練短文本分類器。
2.根據(jù)權(quán)利要求1所述的基于語義增強(qiáng)的短文本分類方法,其特征在于,所述短文本分類器采用的分類算法為樸素貝葉斯算法、支持向量機(jī)算法、K近鄰算法、長(zhǎng)短記憶網(wǎng)絡(luò)算法、卷積神經(jīng)網(wǎng)絡(luò)算法或fasttext算法。
3.根據(jù)權(quán)利要求2所述的基于語義增強(qiáng)的短文本分類方法,其特征在于,所述步驟2)包括:
步驟201)將待分類的短文本作為互聯(lián)網(wǎng)搜索引擎的輸入檢索關(guān)鍵詞信息,選取相似性最高的第一條檢索結(jié)果作為擴(kuò)充語料;
步驟202)抽取出第一條檢索結(jié)果的標(biāo)題信息、摘要信息以及關(guān)鍵詞信息作為語料,并將其作為待分類的短文本的附加語料;
步驟203)從擴(kuò)充語料中得到高質(zhì)量領(lǐng)域相關(guān)語料,對(duì)該語料進(jìn)行切分詞匯、去除停用詞操作得到清潔語料,然后使用計(jì)算關(guān)鍵詞方法再一次提取關(guān)鍵詞,將再次提取的關(guān)鍵詞附加在清潔語料后,最后將附加關(guān)鍵詞的清潔語料作為新訓(xùn)練集訓(xùn)練詞向量,從而得到待分類的短文本的精準(zhǔn)語義詞向量;
步驟204)將擴(kuò)充語料和精準(zhǔn)語義詞向量聯(lián)合起來輸入短文本分類器,得到待分類的短文本的分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于尹忠博;中國(guó)人民解放軍軍事科學(xué)院軍事科學(xué)信息研究中心,未經(jīng)尹忠博;中國(guó)人民解放軍軍事科學(xué)院軍事科學(xué)信息研究中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810090256.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





