[發明專利]一種基于大數據中文網絡評論語句主題語義傾向的分析方法在審
| 申請號: | 201710395947.0 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107291689A | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 林建忙;王振宇;周建清;黃雪意 | 申請(專利權)人: | 溫州市鹿城區中津先進科技研究院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 325000 浙江省溫*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 中文 網絡 評論 語句 主題 語義 傾向 分析 方法 | ||
1.一種基于大數據中文網絡評論語句主題語義傾向的分析方法,其特征在于,所述分析方法包括:
主題抽取:對中文網絡評論語句進行主題抽取,識別確定其主題術語和領域相關的本體概念;
語句預處理:對評論語句進行預處理,分句分詞并過濾掉客觀性表述,以獲取該主題語義分析的情感描述項;
情感分析:分析情感描述項的極性以確定該主題的語義傾向。
2.根據權利要求1所述的一種基于大數據中文網絡評論語句主題語義傾向的分析方法,其特征在于,所述主題抽取具體過程為:提取中文網絡評論語句中的特征詞,判斷其是否存在領域主題術語詞詞典內,若不存在放棄該特征詞,進入下一個特征詞的判斷過程;如果存在,則對該特征詞進行標注,確定其本體概念。
3.根據權利要求1或2所述的一種基于大數據中文網絡評論語句主題語義傾向的分析方法,其特征在于,所述語句預處理具體步驟包括:1)對評論語句進行分詞分句;2)篩選掉過濾掉客觀性的表述語句;3)獲取有價值的情感詞或情感詞和它的修飾部分的組合。
4.根據權利要求1所述的一種基于大數據中文網絡評論語句主題語義傾向的分析方法,其特征在于,所述情感分析為采用主謂結構SBV極性傳遞算法對情感描述項進行語義分析得到該主題的極性值。
5.根據權利要求4所述的一種基于大數據中文網絡評論語句主題語義傾向的分析方法,其特征在于,所述主謂結構SBV極性傳遞算法具體步驟為:
(1)尋找語句中所有含有SBV結構的關系對;對每個關系對,記主語為subject,謂語為predicate,ModifiedPolarity(predicate) ←PriorPolarity(predicate);
(2)如果ModifiedPolarity(predicate) ≠ 0
a) 如果謂語是形容詞,則TopicPolarity(subject) ←ModifiedPolarity(predicate);
b) 否則表示謂語為動詞,則執行(3);
c)檢查CarOntology以判斷該主語是不是主題詞,如果主語是主題詞,則打上標簽(Marked),對于處理過的情感詞,也打上此標簽(Marked);
(3)如果ModifiedPolarity(predicate) ≠ 0,則
a) TopicPolarity (subject) ← ModifiedPolarity (predicate);
b) 繼續查找含有謂語動詞predicate的VOB(動賓結構)關系對;如果該關系對含有的名詞noun為主題詞,則TopicPolarity (noun) ← ModifiedPolarity (predicate);
否則表示謂語動詞沒有極性,執行(4);
(4)找到含有該動詞的VOB關系對,
a) 如果賓語是形容詞adjective1,則ModifiedPolarity(predicate) ←ModifiedPolarity(adjective1);
b) 如果賓語是名詞noun,則找到含有noun的DE(“的”字結構)關系對;其中,記形容詞為adjective2, 則ModifiedPolarity(predicate)←ModifiedPolarity(adjective2);
(5)找到含有predicate的ADV(狀中結構)關系對;其中,記形容詞為adjective3,則ModifiedPolarity(predicate) ← ModifiedPolarity(adjective3);
(6)TopicPolarity(subject) ← ModifiedPolarity(predicate);
(7)利用SBV極性傳遞算法后,
i) 繼續查找整個句子,找到沒有標記過的主題詞,記為UnMarkedTopic;
ii) 找到包含UnMarkedTopic的ATT(定中關系)關系對,對于其中出現的詞noun,查找所有包含noun的關系對,直至找到含有情感詞adjective4的關系對;
iii) 如果ModifiedPolarity(adjective4) ≠0,則TopicPolarity(UnMarkedTopic)←ModifiedPolarity(adjective4);
(8)記錄以上所有算法(SBV+VOB)步驟中使用過的情感詞;查找沒有標記過的情感詞UnMarkedPolar;如果UnMarkedPolar是一個修飾主題詞的前綴,那么在(3)中就已經標記過,所以,UnMarkedPolar不可能是前綴詞;因此,繼續向前查找最鄰近的主題詞Topic,將ModifiedPolarity(UnMarkedPolar)作為調整參數,調整Topic的極性,即TopicPolarity(Topic)←ModifiedPolarity(UnMarkedPolar);
上述算法中,PriorPolarity(predicate)表示謂語的原極性,通過訪問極性詞詞典得到;ModifiedPolarity(predicate)是謂語的修飾極性;TopicPolarity(subject)和TopicPolarity (noun)是主語和賓語分別為主題時的極性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于溫州市鹿城區中津先進科技研究院,未經溫州市鹿城區中津先進科技研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710395947.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





