[發明專利]通過計算機智能分析漢語文字情感傾向的方法無效
| 申請號: | 201210438608.3 | 申請日: | 2012-11-06 |
| 公開(公告)號: | CN102929863A | 公開(公告)日: | 2013-02-13 |
| 發明(設計)人: | 陳國慶;王嘉玲 | 申請(專利權)人: | 蘇州兩江科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州創元專利商標事務所有限公司 32103 | 代理人: | 范晴 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 計算機 智能 分析 漢語 文字 情感 傾向 方法 | ||
技術領域
本發明屬于計算機智能分析技術領域,具體涉及一種通過計算機智能分析漢語文字情感傾向的方法。
背景技術
上世紀60年代,文本的情感傾向分析這一領域剛剛開始,隨著電子商務的發展,上世紀90年代以來,語義傾向性研究在國外才得到普遍關注,并迅速發展起來。Hatzivassiloglou.V,McKeown?K.R.在1997年首先開始了詞匯的語義傾向性研究。他們主要是針對形容詞作傾向性分析,利用詞匯之間的連詞(and,or,but等)訓練生成詞匯間的同意或翻譯傾向的連接圖,然后用聚類的方法將詞匯聚成褒義和貶義兩類。
漢語意見挖掘方法和技術的研究起步較晚。在漢語文本語義傾向自動識別方面,徐琳宏、林鴻飛等提出了基于語義理解的文本傾向性識別機制,計算詞匯與知網中已標注褒貶性的詞匯之間的相似度,獲取詞匯的傾向性,加強對文本褒貶義強度的識別;在漢語句子語義極性分析和觀點抽取研究方面,婁德成、姚天昉等利用自然語言處理技術,對漢語語句進行了語義極性分析和觀點抽取,提出了計算詞語的上下文極性的算法,并且分析了主題和極性修飾成分的匹配關系,研究并開發了用于漢語汽車論壇的意見挖掘系統(姚天昉、聶青陽等);王素格研究了基于Web的評論文本情感分類問題,進行了多層次語言粒度分析。目前,中文詞匯傾向性研究和商品評論挖掘才剛剛起步,由于中文和英文的差異,傳統的基于統計的方法很難準確地表達句子的觀點,因此,借助自然語言處理技術,對句子的成分和結構進行語法分析,不僅增強語義理解的可靠性,而且還能提高極性分析的準確性。
但是目前的算法只是單純的針對于短語或者依賴句法分析,這樣就使得分析的精準度不高,尤其是召回率令人不滿意。本發明因此而來。
發明內容
本發明目的在于提供一種通過計算機智能分析漢語文字情感傾向的方法,解決了現有技術中通過計算機分析漢語語言精準度不高、召回率令人不滿意等問題。
為了解決現有技術中的這些問題,本發明提供的技術方案是:
一種通過計算機智能分析漢語文字情感傾向的方法,其特征在于所述方法包括以下步驟:
(1)讀取漢語文字段落文件,將漢語文字段落文件進行斷句,然后對斷句進行分詞,詞性標注,句法依存關系標注,形成XML文檔;
(2)讀取XML文檔,遍歷句子提取句法依存關系對,基于詞典對提取的詞進行賦值;將正極性詞詞典中的詞賦值為1,負極性詞典中的詞賦值為-1;程度副詞根據程度不同分為5個等級,分別賦值為1.8,1.5,1.2,0.9,0.5;否定副詞根據否定程度分為-1,-1.5兩個等級;
(3)遍歷詞典,按照公式:情感得分=否定詞*副詞之和*形容詞,獲得漢語文字段落文件的情感得分;根據情感得分判斷漢語文字段落文件的情感傾向。
優選的,所述方法步驟(2)中提取句法依存關系對包括以下步驟:
A1)提取斷句中所有的形容詞,根據形容詞的位置向句首上搜索,判斷形容詞的前面4個詞是否有副詞;如有副詞,則進行記錄保存;
A2)判斷形容詞是否在依存關系對的左側;當形容詞在依存關系對的左側時,查找左側的依存類型并保存相應的詞;否則查找依存關系對右側的依存類型并保存相應的詞;依次循環。
本發明技術方案旨在提高文本情感傾向分析的準確率和召回率,本發明技術方案在進行智能分析前,將漢語文字段落進行斷句后,將句子進行預處理,包括分詞,詞性標注和句法依存關系標記,然后遍歷句子提取關系對。
本發明技術方案中分詞指將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜的多、困難的多。
詞性標注即為對給定的一個分好詞的句子,每一個詞附上相應的詞性。例如對晚上喝水進行分詞和詞性標注的過程如下:
詞性標注一個可能的結果為:
晚上/t??喝/v??水/n。
句法依存通過分析語言單位內成分之間的依存關系揭示其句法結構,主張句子中核心動詞是支配其它成分的中心詞,而它本身卻不受其它任何成分的支配,所有受支配成分都以某種依存關系從屬于支配者。句法依存關系對是指構成句法依存的兩個詞組成的關系對。例如,在圖2中,“屏幕”“清晰”構成句法依存關系對。
提取關系對的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州兩江科技有限公司,未經蘇州兩江科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210438608.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙向排水洗滌槽
- 下一篇:一種治療膝關節骨性關節炎的湯劑





