[發明專利]一種基于關聯規則的Web評論觀點自動分類系統及分類方法有效
| 申請號: | 201310301065.5 | 申請日: | 2013-07-17 |
| 公開(公告)號: | CN103473262A | 公開(公告)日: | 2013-12-25 |
| 發明(設計)人: | 袁滿;歐陽元新;皇甫垚;熊璋 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 成金玉;楊學明 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關聯 規則 web 評論 觀點 自動 分類 系統 方法 | ||
技術領域
本發明涉及一種基于關聯規則的Web評論觀點自動分類系統及分類方法,屬于語義處理技術領域。
背景技術
傳統的文本觀點分類方法有基于機器學習的觀點分類,基于情感分析的觀點分類。
基于機器學習的方法將文本分類中的機器學習算法直接用于觀點分類,觀點分類任務上的準確率通常要低于面向其它類別主題的文本分類任務的準確率。其原因是Web中的觀點文本涉及到人的情感表述,是一種主題很特殊的文本內容,其語義隱晦程度要高于客觀描述性的文本,例如,表述“批評”觀點的評論往往可能帶有表示諷刺意義的褒義詞,相反的情況也同樣存在,這些特殊的模式是統計學習方法很難判斷的。
基于情感分析的觀點分類是將文本中的單元例如單詞或短語的情感傾向量化為一個實數值測度,然后通過分析文本中所有單詞或短語的情感傾向來確定句子和整個文檔所表達的觀點傾向。單詞和短語的情感分析除了考慮單詞權重和高階詞之外,還要考慮位置、詞性、句法結構等屬性,因此本類方法的特點是高度依賴于自然語言處理工具和人工知識。自然語言處理的結果好壞和人工知識的完備程度直接影響分類結果。
發明內容
本發明技術解決問題:克服現有技術的不足,提供一種基于關聯規則的Web評論觀點自動分類系統及分類方法,不需要大量的人工參與,自動性高,也不過分依賴中文語言的處理優劣,并且保證了分類系統結果輸出的精度。
本發明技術解決方案之一,包括四個模塊:頻繁詞集提取模塊,頻繁詞集優化模塊,最優關聯規則挖掘模塊,文本觀點分類模塊。系統結構圖如圖1所示,虛線內為本系統范疇。
頻繁詞集提取模塊:數據預處理,把網頁中獲取的文本除去“是”“我”等常見卻無用的詞語(降噪),并且用有代表性的詞語表示,該部分不是本發明的發明,本發明只是使用了該部分將原始文本用特征詞表示出來,得到候選詞集。該模塊的輸入為候選詞集,這一部分詞集是從文本中提取的能代表觀點的詞語的集合。對候選詞集采用Apriori算法,這一算法是數據挖掘中的經典算法。通過寬度優先的策略自底向上逐級生成各項頻繁項目集。算法由初始的一維頻繁集開始迭代,在每一輪迭代中,k項集均由k‐1項集生成。Apriori算法中的頻繁集的剪枝依賴于“向下封閉屬性”:頻繁項集的所有非空子集都是頻繁的,即如果一個項集不是頻繁項集,那么它的所有超集必然不是頻繁項集。這一性質大大減少了候選頻繁項集的數目。盡管如此,由于Apriori需要多次搜索數據庫,其時間復雜度仍然較大,并且如果結果直接用于關聯規則挖掘,效果并不理想,所以需要進行下一步優化。
頻繁詞集優化模塊:假定文本集合包含n個文本類別{class1,…classj,…classn},在上一步產生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條。計算每一個詞條t在類別中i中的支持度Sup(t)i。而一個頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度:Sup(FS)i=min{Sup(t)1,Sup(t)2....Sup(t)n}。算出每個Sup(FS)i之后,根據公式(2.1)計算AD‐Sup:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310301065.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于層次依賴建模的軟件FMEA方法
- 下一篇:一種混凝土鑿毛施工方法





