[發(fā)明專(zhuān)利]一種基于大數(shù)據(jù)中文網(wǎng)絡(luò)評(píng)論語(yǔ)句主題語(yǔ)義傾向的分析方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710395947.0 | 申請(qǐng)日: | 2017-05-31 |
| 公開(kāi)(公告)號(hào): | CN107291689A | 公開(kāi)(公告)日: | 2017-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 林建忙;王振宇;周建清;黃雪意 | 申請(qǐng)(專(zhuān)利權(quán))人: | 溫州市鹿城區(qū)中津先進(jìn)科技研究院 |
| 主分類(lèi)號(hào): | G06F17/27 | 分類(lèi)號(hào): | G06F17/27 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 325000 浙江省溫*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 中文 網(wǎng)絡(luò) 評(píng)論 語(yǔ)句 主題 語(yǔ)義 傾向 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于大數(shù)據(jù)中文網(wǎng)絡(luò)評(píng)論語(yǔ)句主題語(yǔ)義傾向的分析方法,利用本體來(lái)抽取語(yǔ)句主題以及它的屬性,然后在句法分析的基礎(chǔ)上,識(shí)別主題和情感描述項(xiàng)之間的關(guān)系,從而決定語(yǔ)句中每個(gè)主題的極性。
背景技術(shù)
目前,英特網(wǎng)上的信息與日劇增,蘊(yùn)藏著巨大的信息量。但是,要想在很短的時(shí)間內(nèi)獲得人們對(duì)于諸如人物、事件、傳媒、產(chǎn)品等有價(jià)值的評(píng)價(jià)信息,往往是十分困難的。隨著網(wǎng)絡(luò)的飛速發(fā)展,網(wǎng)上的各種各樣的文章和言論信息量越來(lái)越大,使文本傾向性分析逐漸成為了近幾年熱門(mén)的研究課題。目前,在這個(gè)領(lǐng)域中主要有幾個(gè)主要的研究方向,其中觀點(diǎn)提取和詞匯傾向性分類(lèi)為傾向分析核心技術(shù), 文本傾向性分類(lèi)和主客觀分類(lèi)也是傾向分析研究方向重要分支。而關(guān)于情感傾向分析中的研究思路主要為采用機(jī)器學(xué)習(xí)的方法、基于語(yǔ)義的方法和結(jié)合語(yǔ)義和機(jī)器學(xué)習(xí)的方法。
文本的情感傾向分析方法中,基于機(jī)器學(xué)習(xí)的方法需要大量的人工標(biāo)注語(yǔ)料、建立訓(xùn)練樣本集和訓(xùn)練分類(lèi)模型的工作,工作繁重而復(fù)雜,而取得的分類(lèi)效果在部分領(lǐng)域與語(yǔ)義分析的效果差距不大,對(duì)于網(wǎng)絡(luò)文本的準(zhǔn)確率和召回率各為86%和85.2%。基于語(yǔ)義的分析方法比較單一,大都基于比較固定的語(yǔ)法模式。其中語(yǔ)義的分析方法中處理最基本的單位是情感詞,隨著網(wǎng)絡(luò)文本的多樣化,情感詞提取并不能達(dá)到很高的準(zhǔn)確率,對(duì)于網(wǎng)絡(luò)文本的準(zhǔn)確率和召回率各為84.2%和84.1%。因此,現(xiàn)有技術(shù)中,文本語(yǔ)義傾向分析的方法或多或少都存在準(zhǔn)確率和召回率低的問(wèn)題。
發(fā)明內(nèi)容
基于上述問(wèn)題,本發(fā)明目的在于提供一種基于大數(shù)據(jù)中文網(wǎng)絡(luò)評(píng)論語(yǔ)句主題語(yǔ)義傾向的分析方法,利用本體來(lái)抽取語(yǔ)句主題以及它的屬性,然后在句法分析的基礎(chǔ)上,識(shí)別主題和情感描述項(xiàng)之間的關(guān)系,從而決定語(yǔ)句中每個(gè)主題的極性。
針對(duì)以上問(wèn)題,提供了如下技術(shù)方案:一種基于大數(shù)據(jù)中文網(wǎng)絡(luò)評(píng)論語(yǔ)句主題語(yǔ)義傾向的分析方法,其特征在于,所述分析方法包括:
主題抽取:對(duì)中文網(wǎng)絡(luò)評(píng)論語(yǔ)句進(jìn)行主題抽取,識(shí)別確定其主題術(shù)語(yǔ)和領(lǐng)域相關(guān)的本體概念;
語(yǔ)句預(yù)處理:對(duì)評(píng)論語(yǔ)句進(jìn)行預(yù)處理,分句分詞并過(guò)濾掉客觀性表述,以獲取該主題語(yǔ)義分析的情感描述項(xiàng);
情感分析:分析情感描述項(xiàng)的極性以確定該主題的語(yǔ)義傾向。
本發(fā)明進(jìn)一步設(shè)置為,所述主題抽取具體過(guò)程為:提取中文網(wǎng)絡(luò)評(píng)論語(yǔ)句中的特征詞,判斷其是否存在領(lǐng)域主題術(shù)語(yǔ)詞詞典內(nèi),若不存在放棄該特征詞,進(jìn)入下一個(gè)特征詞的判斷過(guò)程;如果存在,則對(duì)該特征詞進(jìn)行標(biāo)注,確定其本體概念。
本發(fā)明進(jìn)一步設(shè)置為,其特征在于,所述語(yǔ)句預(yù)處理具體步驟包括:1)對(duì)評(píng)論語(yǔ)句進(jìn)行分詞分句;2)篩選掉過(guò)濾掉客觀性的表述語(yǔ)句;3)獲取有價(jià)值的情感詞或情感詞和它的修飾部分的組合。
本發(fā)明進(jìn)一步設(shè)置為,所述情感分析為采用主謂結(jié)構(gòu)SBV極性傳遞算法對(duì)情感描述項(xiàng)進(jìn)行語(yǔ)義分析得到該主題的極性值。
本發(fā)明進(jìn)一步設(shè)置為,所述主謂結(jié)構(gòu)SBV極性傳遞算法具體步驟為:
(1)尋找語(yǔ)句中所有含有SBV結(jié)構(gòu)的關(guān)系對(duì);對(duì)每個(gè)關(guān)系對(duì),記主語(yǔ)為subject,謂語(yǔ)為predicate,ModifiedPolarity(predicate) ← PriorPolarity(predicate);
(2)如果ModifiedPolarity(predicate) ≠ 0
a) 如果謂語(yǔ)是形容詞,則TopicPolarity(subject) ←ModifiedPolarity(predicate);
b) 否則表示謂語(yǔ)為動(dòng)詞,則執(zhí)行(3);
c)檢查CarOntology以判斷該主語(yǔ)是不是主題詞,如果主語(yǔ)是主題詞,則打上標(biāo)簽(Marked),對(duì)于處理過(guò)的情感詞,也打上此標(biāo)簽(Marked);
(3)如果ModifiedPolarity(predicate) ≠ 0,則
a) TopicPolarity (subject) ← ModifiedPolarity (predicate);
b) 繼續(xù)查找含有謂語(yǔ)動(dòng)詞predicate的VOB(動(dòng)賓結(jié)構(gòu))關(guān)系對(duì);如果該關(guān)系對(duì)含有的名詞noun為主題詞,則TopicPolarity (noun) ← ModifiedPolarity (predicate);
否則表示謂語(yǔ)動(dòng)詞沒(méi)有極性,執(zhí)行(4);
(4)找到含有該動(dòng)詞的VOB關(guān)系對(duì),
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于溫州市鹿城區(qū)中津先進(jìn)科技研究院,未經(jīng)溫州市鹿城區(qū)中津先進(jìn)科技研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710395947.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





