[發(fā)明專利]一種基于商品評(píng)論的新情感詞提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010087341.2 | 申請(qǐng)日: | 2020-02-11 |
| 公開(公告)號(hào): | CN111259661B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計(jì))人: | 張順香;許汗清;尹暢;金鳴;徐善山;孟楠 | 申請(qǐng)(專利權(quán))人: | 安徽理工大學(xué) |
| 主分類號(hào): | G06F40/284 | 分類號(hào): | G06F40/284;G06F40/247;G06F40/35 |
| 代理公司: | 北京晉德允升知識(shí)產(chǎn)權(quán)代理有限公司 11623 | 代理人: | 王戈 |
| 地址: | 232001 安徽*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 商品 評(píng)論 情感 提取 方法 | ||
本發(fā)明公開一種基于商品評(píng)論的新情感詞提取方法,目的是在商品評(píng)論領(lǐng)域獲取更多的新情感詞。該方法具體為:對(duì)商品評(píng)論語(yǔ)料庫(kù)的每條評(píng)論進(jìn)行預(yù)處理、分詞以及詞性、位置標(biāo)記,并根據(jù)依存關(guān)系及二元搭配抽取規(guī)則從評(píng)論中獲取主題詞,評(píng)價(jià)詞二元組;采用相鄰詞詞性及位置、主題詞和表情符號(hào)位置等特征進(jìn)行粗粒度提取新情感詞,再利用語(yǔ)法樹來(lái)發(fā)現(xiàn)具有同位關(guān)系的其他新情感詞;通過點(diǎn)互信息值和語(yǔ)料頻數(shù)計(jì)算對(duì)當(dāng)前已經(jīng)提取的新情感詞做細(xì)粒度篩選。該方法提取的新情感詞可以一定程度上擴(kuò)大情感詞的規(guī)模,為更加全面、準(zhǔn)確地基于商品評(píng)論進(jìn)行情感分析奠定基礎(chǔ)。
技術(shù)領(lǐng)域
本發(fā)明涉及文本分析技術(shù)領(lǐng)域,特別涉及一種基于商品評(píng)論的新情感詞提取方法。
背景技術(shù)
在信息爆炸的互聯(lián)網(wǎng)時(shí)代,電子商務(wù)也在逐漸改變著人們的工作與生活,越來(lái)越多的人習(xí)慣于網(wǎng)購(gòu),各大電商平臺(tái)也成為了各種商品的主要銷售渠道。為了更好地了解實(shí)際評(píng)價(jià)以及完善產(chǎn)品服務(wù),電子商務(wù)網(wǎng)站幾乎都會(huì)允許顧客對(duì)其所購(gòu)買地商品發(fā)表評(píng)論觀點(diǎn)。在這些評(píng)論中,包含了消費(fèi)者對(duì)產(chǎn)品各個(gè)屬性特征的評(píng)價(jià)以及情感觀點(diǎn)。然而,這些商品評(píng)論信息不僅可以為其他消費(fèi)者提供客觀全面且真實(shí)的商品描述,也可以促進(jìn)產(chǎn)品的研發(fā)及公司的發(fā)展,從而獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
網(wǎng)絡(luò)上存在海量的商品評(píng)論,這些評(píng)論中包含的大量有用信息,對(duì)這些評(píng)論進(jìn)行挖掘及情感分析有著極大的實(shí)用價(jià)值。而對(duì)情感詞的提取也是對(duì)商品評(píng)論進(jìn)行情感分析的基本任務(wù)之一,情感詞則是人們發(fā)表評(píng)價(jià)觀點(diǎn)的最基本的語(yǔ)言單元。近年來(lái),比較具有代表性的情感詞典有知網(wǎng)情感詞典(HowNet)、大連理工大學(xué)的情感詞匯本體庫(kù)等。但是現(xiàn)有情感詞典在情感分析任務(wù)的使用中存在以下不足:
(1)詞典的規(guī)模小。絕大部分詞典的規(guī)模在一萬(wàn)詞語(yǔ)以下,無(wú)法很好地覆蓋這海量的評(píng)論信息。
(2)詞典的詞語(yǔ)比較傳統(tǒng)。當(dāng)前詞典中幾乎都是有一些已經(jīng)具有明顯情感傾向的詞語(yǔ),仍然存在一些新的或者是情感傾向不足夠明顯的情感詞有待挖掘。例如,“好康”(褒義,釋為好看)、“上頭”(網(wǎng)絡(luò)用語(yǔ),
釋為一時(shí)沖動(dòng))。
鑒于傳統(tǒng)的通用詞典對(duì)新情感詞的識(shí)別能力不夠,即有些新的、小眾的情感詞未被發(fā)現(xiàn),本發(fā)明提出了一種基于商品評(píng)論的新情感詞提取方法。該方法從相鄰詞詞性及位置角度,并結(jié)合輸入法聯(lián)想的特點(diǎn)來(lái)根據(jù)表情符號(hào)的位置來(lái)提取新情感詞,還利用語(yǔ)法樹去發(fā)現(xiàn)具有同位關(guān)系的其他情感詞,從而擴(kuò)大了情感詞的覆蓋率,為后續(xù)的情感分析鋪墊了一定的基礎(chǔ)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于商品評(píng)論的新情感詞提取方法,該方法具有覆蓋面廣、準(zhǔn)確率高等優(yōu)點(diǎn)。為實(shí)現(xiàn)該發(fā)明目的,本發(fā)明提供的新情感詞提取方法,其特征在于,包括以下步驟:
步驟1:建立商品評(píng)論語(yǔ)料并對(duì)其進(jìn)行預(yù)處理。利用分詞工具對(duì)語(yǔ)料中的每條評(píng)論進(jìn)行分詞以及詞性、位置標(biāo)記,并根據(jù)依存關(guān)系及二元搭配抽取規(guī)則提取主題詞,評(píng)價(jià)詞二元組詞對(duì);
步驟2:對(duì)新詞進(jìn)行粗粒度提取。結(jié)合相鄰詞詞性及位置、主題詞和表情符號(hào)位置等特征統(tǒng)計(jì)舊情感詞出現(xiàn)頻率,再設(shè)置k=4的滑動(dòng)窗口獲取不同詞性詞語(yǔ)、主題詞以及表情符號(hào)周圍4個(gè)字符以內(nèi)的詞語(yǔ)。根據(jù)不同特征為候選詞設(shè)置概率值,再進(jìn)行概率綜合計(jì)算,選擇排序前30%的詞作為候選新情感詞;
步驟2.1:利用標(biāo)注好詞性和位置信息的評(píng)論作為數(shù)據(jù)集進(jìn)行訓(xùn)練,統(tǒng)計(jì)情感詞出現(xiàn)在不同詞性詞語(yǔ)周圍4個(gè)字符以內(nèi)的頻率;利用步驟1中根據(jù)依存關(guān)系及搭配規(guī)則所提取的主題詞,評(píng)價(jià)詞二元組作為數(shù)據(jù)集進(jìn)行訓(xùn)練,統(tǒng)計(jì)評(píng)價(jià)詞出現(xiàn)在主題詞周圍4個(gè)字符以內(nèi)位置的頻率;利用標(biāo)注好表情符號(hào)位置信息的評(píng)論作為數(shù)據(jù)集進(jìn)行訓(xùn)練,統(tǒng)計(jì)情感詞出現(xiàn)在表情符號(hào)周圍4個(gè)字符以內(nèi)的頻率;
步驟2.2:設(shè)置長(zhǎng)度為4個(gè)字符的滑動(dòng)窗口來(lái)獲取不同詞性詞語(yǔ)、主題詞以及表情符號(hào)周圍4個(gè)字符以內(nèi)的詞語(yǔ),并加入候選詞集合。
步驟2.3:根據(jù)不同特征,依據(jù)它們的出現(xiàn)頻率所占比例為每個(gè)詞語(yǔ)分別設(shè)置概率值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽理工大學(xué),未經(jīng)安徽理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010087341.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 全球評(píng)論板系統(tǒng)及其實(shí)現(xiàn)方法
- 一種評(píng)論推薦方法和系統(tǒng)
- 評(píng)論內(nèi)容的提供方法、裝置和終端設(shè)備
- 評(píng)論信息確定方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于人工智能構(gòu)建評(píng)論圖譜的方法和裝置
- 一種電子商務(wù)產(chǎn)品評(píng)論質(zhì)量鑒別系統(tǒng)
- 音頻文件的評(píng)論方法及裝置
- 評(píng)論的展示方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 在線評(píng)論篩選裝置
- 用于生成評(píng)論的方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





