[發(fā)明專利]一種傾向性文本自動分類系統(tǒng)及其實現(xiàn)方法在審
| 申請?zhí)枺?/td> | 201210453523.2 | 申請日: | 2012-11-13 |
| 公開(公告)號: | CN102930042A | 公開(公告)日: | 2013-02-13 |
| 發(fā)明(設(shè)計)人: | 吳明芬;陳濤;劉興林 | 申請(專利權(quán))人: | 五邑大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 529020 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 傾向性 文本 自動 分類 系統(tǒng) 及其 實現(xiàn) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域、文本數(shù)據(jù)挖掘、文本自動化分類技術(shù)領(lǐng)域,特別是涉及一種傾向性文本自動化分類系統(tǒng),具體地說涉及一種基于句法和依存關(guān)系的傾向性文本自動化分類系統(tǒng)。
背景技術(shù)
對文本數(shù)據(jù)進行自動化分類是文本數(shù)據(jù)挖掘、自然語言處理等人工智能技術(shù)的重要應(yīng)用領(lǐng)域,其主要功能是把以數(shù)字化形式存儲的非結(jié)構(gòu)化文本數(shù)據(jù),通過自然語言處理技術(shù)、文本數(shù)據(jù)挖掘技術(shù),自動按照事先組織好的與具體業(yè)務(wù)相關(guān)的類別進行分類。隨著信息技術(shù)的不斷發(fā)展和信息系統(tǒng)應(yīng)用范圍的不斷深化,對文本數(shù)據(jù)進行自動化分類是提高企業(yè)生產(chǎn)效率和競爭優(yōu)勢的重要技術(shù)措施。
傾向性文本又稱情感文本,是與主要陳述事實的客觀性文本相對應(yīng)的主要表達意見或情感的主觀性文本。傾向性文本自動化分類系統(tǒng)是對文本數(shù)據(jù)中的情感進行多層級的細致分類,挖掘文本潛在的情感表達,進而發(fā)掘用戶的興趣與需求,對企業(yè)未來的發(fā)展提供決策依據(jù)具有很重要的意義。
更具體的,對于需要處理大量文本數(shù)據(jù)的行業(yè)而言,隨著各類數(shù)字化業(yè)務(wù)的開拓,需求將不斷增強,伴隨而來的是傳統(tǒng)的人工處理方式勞動強度的增加,如何在海量的資料中挖掘用戶對產(chǎn)品的情緒,發(fā)掘用戶的興趣與需求都是大數(shù)據(jù)處理行業(yè)面對的直接挑戰(zhàn)。
因此尋找一條科學(xué)的傾向性文本自動分類方法,在最大程度上減輕數(shù)據(jù)處理人員的壓力與提高服務(wù)質(zhì)量是一個迫切的任務(wù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠?qū)A向性文本進行多層級的細致的自動化分類系統(tǒng)及其實現(xiàn)方法,并使用戶能對業(yè)務(wù)相關(guān)知識進行管理,根據(jù)具體業(yè)務(wù)調(diào)整分類結(jié)果。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的一種傾向性文本自動分類系統(tǒng)及其實現(xiàn)方法,包括依存關(guān)系分析模塊,用于對中文句子進行依存關(guān)系分析;中文分詞模塊,用于對中文句子進行分詞;句法分析模塊,用于對分詞后的中文句子進行句法分析;多層級情感分類句模庫,用于對與業(yè)務(wù)相關(guān)知識進行管理;其特征在于:多層級情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個小類,根據(jù)漢語使用規(guī)則和業(yè)務(wù)相關(guān)知識手工整理而成;對多層級情感分類句模庫中所有句模進行句法分析,建立句法樹庫;對多層級情感分類句模庫中所有句模進行依存關(guān)系分析,建立依存關(guān)系圖庫;對待分類句子進行中文分詞和句法分析,將句法分析的結(jié)果與句法樹庫中候選分類下的每個句模的句法樹進行匹配,按照相關(guān)算法依次計算每個句模的句法樹與待分類句子對應(yīng)的句法樹的匹配程度得分;對待分類句子進行依存關(guān)系分析,將依存關(guān)系分析的結(jié)果與依存關(guān)系圖庫中候選分類下的每個句模的依存關(guān)系圖進行匹配,并按照相關(guān)算法依次計算每個句模對應(yīng)的依存關(guān)系圖與待分類句子對應(yīng)的依存關(guān)系圖的匹配程度得分;每個句模的兩次得分相加為該句模與待分類句子匹配程度的總得分,總得分最高的句模所屬的分類為最終分類結(jié)果。
上述的多層級情感分類句模庫要對其中的句模進行依存關(guān)系分析,建立依存關(guān)系圖庫。
上述的多層級情感分類句模庫要為其中的句模進行句法分析,建立句法樹庫。
本發(fā)明相比現(xiàn)有技術(shù)突出的優(yōu)點是:
本發(fā)明采用基于統(tǒng)計的方法和基于規(guī)則的方法相結(jié)合的方法,提高傾向性文本自動分類的準確性和靈敏度。基于統(tǒng)計的方法是指本發(fā)明采用的分詞模塊和句法分析模塊分別使用美國斯坦福大學(xué)自然語言處理小組推出的中文分詞器和句法分析器;本發(fā)明采用的依存關(guān)系分析模塊使用哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心推出的語言技術(shù)平臺。這三個軟件都采用了多種基于統(tǒng)計的機器學(xué)習(xí)算法對句子進行分析。基于規(guī)則的方法是指多層級情感分類句模庫根據(jù)漢語使用規(guī)則和業(yè)務(wù)相關(guān)知識手工整理而成。本發(fā)明的分類算法是對待分類句子進行分析后與句模庫進行匹配,故本發(fā)明不需要使用任何測試語料,對單個句子只要能與句模庫匹配就能準確分類。
附圖說明
圖1是本發(fā)明的一個實施例的軟件操作界面顯示圖;
圖2是本發(fā)明的一個實施例的句法分析模塊可視化結(jié)果示意圖;
圖3是本發(fā)明的一個實施例的依存關(guān)系模塊可視化結(jié)果示意圖;
圖4是本發(fā)明的一個實施例的多層級情感分類句模庫層次結(jié)構(gòu)示意圖;
圖5是本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現(xiàn)方法的基本模塊關(guān)系圖;
圖6是本發(fā)明的一種傾向性文本自動分類系統(tǒng)及其實現(xiàn)方法的分類算法流程圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于五邑大學(xué),未經(jīng)五邑大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210453523.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種頁面瀏覽方法、服務(wù)器和終端
- 下一篇:物流小車下坡緩沖裝置





