[發(fā)明專利]基于多特征和深度學(xué)習(xí)的垃圾評(píng)論識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011044456.X | 申請(qǐng)日: | 2020-09-28 |
| 公開(kāi)(公告)號(hào): | CN112307755A | 公開(kāi)(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 于永新;張晴;杜亮 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 特征 深度 學(xué)習(xí) 垃圾 評(píng)論 識(shí)別 方法 | ||
本發(fā)明公開(kāi)了一種基于多特征和深度學(xué)習(xí)的垃圾評(píng)論識(shí)別方法。首先對(duì)文本進(jìn)行預(yù)處理,然后使用Word2Vec的Skip?Gram模型生成詞向量,之后使用CNN和Bi?GRU分別提取評(píng)論文本內(nèi)容的局部特征和序列特征,然后手動(dòng)提取評(píng)論者特征,最后將這些特征融合在一起輸入到全連接層,再經(jīng)過(guò)Softmax激活函數(shù)輸出分類結(jié)果。本發(fā)明考慮到了評(píng)論文本內(nèi)容的局部特征和序列特征、評(píng)論者特征、評(píng)論的認(rèn)可特征等多個(gè)特征,使特征更加全面和豐富,從而使識(shí)別更加準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及到數(shù)據(jù)挖掘、自然語(yǔ)言處理領(lǐng)域,特別涉及一種基于多特征和深度學(xué)習(xí)的垃 圾評(píng)論識(shí)別方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和不斷成熟,互聯(lián)網(wǎng)已經(jīng)滲透到了人們的生活中,網(wǎng)絡(luò)購(gòu)物 的已經(jīng)成為人們生活中主流的消費(fèi)方式,由于網(wǎng)絡(luò)的虛擬性,人們?cè)诰W(wǎng)上選購(gòu)商品時(shí),無(wú)法 觸摸到真實(shí)的商品,只能通過(guò)商品的描述和商品的評(píng)論來(lái)判斷商品的質(zhì)量。由于網(wǎng)絡(luò)發(fā)言的 自由性,用戶可以自由發(fā)表言論,有些用戶會(huì)發(fā)表一些無(wú)關(guān)商品的,沒(méi)有參考價(jià)值的的評(píng)論。 一些商家也會(huì)雇傭人們?yōu)樽约鹤珜?xiě)過(guò)度褒獎(jiǎng)的評(píng)論或者對(duì)競(jìng)爭(zhēng)對(duì)手撰寫(xiě)刻意貶低的評(píng)論。這 些垃圾評(píng)論會(huì)影響用戶的購(gòu)物體驗(yàn),甚至?xí)`導(dǎo)用戶。因此在線垃圾評(píng)論檢測(cè)對(duì)于維護(hù)健康 的網(wǎng)絡(luò)環(huán)境和消費(fèi)者的利益有著巨大的意義。
目前垃圾評(píng)論識(shí)別主要有兩種類型,一種是基于機(jī)器學(xué)習(xí)的方法,例如樸素貝葉斯、支 持向量機(jī)等方法,這些方法需要手動(dòng)構(gòu)建特征并且提取不到文本的深層次的語(yǔ)義信息。另一 種是基于深度學(xué)習(xí)的方法,不需要手動(dòng)構(gòu)建特征,是通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)深層語(yǔ)義特征, 取得了很好的效果。
目前用于自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)主要有卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò) 可以很好的捕捉到文本的局部信息,但是卷積過(guò)濾器寬度有限,只能感知到有限范圍的信息, 不具有全局性。而循環(huán)神經(jīng)網(wǎng)絡(luò)能夠?qū)π蛄行畔⑦M(jìn)行建模,但是其在訓(xùn)練過(guò)程中會(huì)出現(xiàn)梯度 爆炸和梯度消失的問(wèn)題。LSTM在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入了門(mén),較好的解決了循環(huán)神經(jīng) 網(wǎng)絡(luò)的弊端。GRU相比于LSTM,精簡(jiǎn)了網(wǎng)絡(luò)結(jié)構(gòu),提升了訓(xùn)練的速度。
發(fā)明內(nèi)容
鑒于上述,本發(fā)明針對(duì)現(xiàn)有垃圾評(píng)論識(shí)別的缺陷,提供一種基于多特征和深度學(xué)習(xí)的垃 圾評(píng)論識(shí)別方法。
本發(fā)明首先對(duì)文本進(jìn)行預(yù)處理,然后使用Word2Vec的Skip-Gram模型生成詞向量,之后 使用CNN和Bi-GRU分別提取評(píng)論文本內(nèi)容的局部特征和序列特征,然后手動(dòng)提取評(píng)論者特 征,最后將這些特征融合在一起輸入到全連接層,再經(jīng)過(guò)Softmax激活函數(shù)輸出分類結(jié)果。 本發(fā)明考慮到了評(píng)論文本內(nèi)容的局部特征和序列特征、評(píng)論者特征、評(píng)論的認(rèn)可特征等多個(gè) 特征,使特征更加全面和豐富,從而使識(shí)別更加準(zhǔn)確。
本發(fā)明的技術(shù)方案是:一種基于多特征和深度學(xué)習(xí)的垃圾評(píng)論識(shí)別方法,具體包括以下 步驟:
1)對(duì)評(píng)論文本進(jìn)行預(yù)處理,使用Word2Vec的Skip-Gram模型對(duì)詞語(yǔ)進(jìn)行訓(xùn)練,生成詞語(yǔ)的 詞向量表示。
2)使用CNN模型對(duì)評(píng)論文本內(nèi)容進(jìn)行特征提取,得到評(píng)論文本內(nèi)容的局部特征。
3)使用Bi-GRU模型對(duì)評(píng)論文本內(nèi)容進(jìn)行特征提取,得到評(píng)論文本內(nèi)容的上下文序列特征。
4)手動(dòng)提取評(píng)論者特征、評(píng)論的認(rèn)可特征。
5)對(duì)上述得到的多種特征進(jìn)行特征融合,輸入到Softmax層進(jìn)行分類。
有益效果
本發(fā)明的優(yōu)點(diǎn)在于:
1.本方案分別使用CNN和Bi-GRU提取評(píng)論文本內(nèi)容的局部特征和上下文序列特征,不僅 考慮了文本的局部語(yǔ)義信息還考慮到了文本雙向的上下文語(yǔ)義信息,獲取的特征更加全面。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011044456.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





