[發(fā)明專利]一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng)及分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310301065.5 | 申請(qǐng)日: | 2013-07-17 |
| 公開(公告)號(hào): | CN103473262A | 公開(公告)日: | 2013-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 袁滿;歐陽元新;皇甫垚;熊璋 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 成金玉;楊學(xué)明 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)聯(lián) 規(guī)則 web 評(píng)論 觀點(diǎn) 自動(dòng) 分類 系統(tǒng) 方法 | ||
1.一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類系統(tǒng),其特征在于包括:頻繁詞集提取模塊,頻繁詞集優(yōu)化模塊,最優(yōu)關(guān)聯(lián)規(guī)則挖掘模塊,文本觀點(diǎn)分類模塊,其中:
頻繁詞集提取模塊,輸入候選詞集本發(fā)明的系統(tǒng),所述候選詞集是從文本中提取的能代表觀點(diǎn)的詞語的集合,對(duì)候選詞集采用Apriori算法,通過寬度優(yōu)先的策略自底向上逐級(jí)生成各項(xiàng)頻繁項(xiàng)目集,送至頻繁詞集優(yōu)化模塊;
頻繁詞集優(yōu)化模塊:在頻繁詞集提取模塊產(chǎn)生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條,計(jì)算每一個(gè)詞條t在類別中i中的支持度Sup(t)i,而一個(gè)頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度:Sup(FS)i=min{Sup(t)1,Sup(t)2....Sup(t)n},計(jì)算出每個(gè)Sup(FS)i之后,根據(jù)公式(2.1)計(jì)算支持度均方差A(yù)D‐Sup:
Ave為平均值函數(shù),i=1……n表示文本類別,計(jì)算所有頻繁詞集的AD‐Sup,按照得分的由高到低排序,以得分最高的N項(xiàng)作為候選特征,最終得到了優(yōu)化頻繁詞集;
最優(yōu)關(guān)聯(lián)集挖掘模塊:從已獲得的優(yōu)化頻繁項(xiàng)目集中,逐行掃描每一條頻繁項(xiàng)目集,并在每一條頻繁項(xiàng)目集中計(jì)算由其推導(dǎo)出正面和負(fù)面觀點(diǎn)的置信度,若該置信度高于指定閾值則將該規(guī)則加入相應(yīng)分類規(guī)則子集,當(dāng)掃描結(jié)束后,共有正面規(guī)則集和負(fù)面規(guī)則集兩個(gè)規(guī)則子集;如果某規(guī)則集的所有規(guī)則都沒有比他們更普遍且支持度和置信度更高的規(guī)則,所述的一個(gè)規(guī)則比另一個(gè)規(guī)則更普遍是指:對(duì)于兩個(gè)規(guī)則和,如果,則更具普遍性,那么該規(guī)則集就是最優(yōu)的;最后生成的關(guān)聯(lián)規(guī)則集就是整個(gè)系統(tǒng)的核心部分,它是文本觀點(diǎn)分類的最終依據(jù);
文本評(píng)論觀點(diǎn)分類模塊:在最優(yōu)關(guān)聯(lián)集挖掘模塊生成的關(guān)聯(lián)規(guī)則集的基礎(chǔ)上,對(duì)于一個(gè)分類目標(biāo)test_reviewi,使用多參數(shù)測試的規(guī)則判斷,首先需要從正面規(guī)則集和負(fù)面規(guī)則集中分別尋找目標(biāo)包含的規(guī)則先導(dǎo)部分,然后從包含的正面規(guī)則子集和負(fù)面規(guī)則子集中計(jì)算參與投票評(píng)分的多個(gè)參數(shù)值,所述多個(gè)參數(shù)值包括最大置信度(Max-conf)、規(guī)則覆蓋長度(Covered?Len)、次要置信度(Minor-conf)一最大單詞權(quán)重(MTW);
所述最大置信度(Max-conf):如果在所有正面規(guī)則子集的最大置信度與所有負(fù)面規(guī)則子集的最大置信度差值的絕對(duì)值大于預(yù)設(shè)值ε,0<ε<1,那么最大置信度的分值Vote(Max-conf)如公式2.3所示,
公式(2.3)中,PR代表正面規(guī)則,NR代表負(fù)面規(guī)則,Max-Conf(PR)為所有正面規(guī)則的置信度中最大值,Max-Conf(NR)為所有負(fù)面規(guī)則的置信度中最大值;
規(guī)則覆蓋長度(Covered?Len):分類目標(biāo)所包含的規(guī)則中的規(guī)則數(shù);
次要置信度(Minor-conf):除了置信度最大的規(guī)則以外其它規(guī)則的置信度均值;
最大單詞權(quán)重(MTW):從權(quán)重最大的單詞開始,如果某一規(guī)則包含該單詞則將其加入到該單詞對(duì)應(yīng)的規(guī)則簇中,規(guī)則簇指的是先導(dǎo)部分包含同一單詞的規(guī)則子集,并將該規(guī)則從候選規(guī)則中刪除,每個(gè)規(guī)則簇的權(quán)值等于其中包含單詞的權(quán)重,最終MTW的值等于各規(guī)則簇權(quán)重的平均值;
對(duì)每個(gè)參數(shù)metricj分別對(duì)比在正面規(guī)則子集和負(fù)面規(guī)則子集中的大小,如果正面得分更大,則Vote(metricj)=1,反之Vote(metricj)=‐1,相等則為0;最終的數(shù)值為最大置信度的得分Vote(Max‐conf),規(guī)則覆蓋長度的得分Vote(Cover‐len),次要置信長度的得分Vote(Minor‐conf),最大單詞權(quán)重的得分Vote(MTW)之和;如果此和大于零,則分類目標(biāo)test_reviewi屬于正面觀點(diǎn),反之為反面觀點(diǎn)。
2.一種基于關(guān)聯(lián)規(guī)則的Web評(píng)論觀點(diǎn)自動(dòng)分類方法,其特征在于實(shí)現(xiàn)步驟如下:
(1)頻繁詞集提取
將候選詞集輸入至本發(fā)明的系統(tǒng),所述候選詞集是從文本中提取的能代表觀點(diǎn)的詞語的集合,對(duì)候選詞集采用Apriori算法,通過寬度優(yōu)先的策略自底向上逐級(jí)生成各項(xiàng)頻繁項(xiàng)目集;
(2)頻繁詞集優(yōu)化:在步驟(1)產(chǎn)生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條,計(jì)算每一個(gè)詞條t在類別中i中的支持度Sup(t)i,而一個(gè)頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度:Sup(FS)i=min{Sup(t)1,Sup(t)2....Sup(t)n},計(jì)算出每個(gè)Sup(FS)i之后,根據(jù)公式(2.1)計(jì)算支持度均方差A(yù)D‐Sup:
Ave為平均值函數(shù),i=1……n表示文本類別,計(jì)算所有頻繁詞集的AD‐Sup,按照得分的由高到低排序,以得分最高的N項(xiàng)作為候選特征,最終得到了優(yōu)化頻繁詞集;
(3)進(jìn)行最優(yōu)關(guān)聯(lián)集挖掘
從得到的優(yōu)化頻繁項(xiàng)目集中,逐行掃描每一條頻繁項(xiàng)目集,并在每一條頻繁項(xiàng)目集中計(jì)算由其推導(dǎo)出正面和負(fù)面觀點(diǎn)的置信度,若該置信度高于指定閾值則將該規(guī)則集加入相應(yīng)分類規(guī)則子集,當(dāng)掃描結(jié)束后,共有正面規(guī)則集和負(fù)面規(guī)則集兩個(gè)規(guī)則子集;對(duì)于一個(gè)規(guī)則集,如果該規(guī)則集的所有規(guī)則都沒有比他們更普遍且支持度和置信度更高的規(guī)則(這里的所說的一個(gè)規(guī)則比另一個(gè)規(guī)則更普遍是指:對(duì)于兩個(gè)規(guī)則和如果則更具普遍性),那么該規(guī)則集就是最優(yōu)的;最后生成的關(guān)聯(lián)規(guī)則集就是整個(gè)系統(tǒng)的核心部分,它是文本觀點(diǎn)分類的最終依據(jù);
(4)文本評(píng)論觀點(diǎn)分類
在步驟(3)生成的關(guān)聯(lián)規(guī)則集的基礎(chǔ)上,對(duì)于一個(gè)分類目標(biāo)test_reviewi,使用多參數(shù)測試的規(guī)則判斷,首先需要從正面規(guī)則集和負(fù)面規(guī)則集中分別尋找目標(biāo)包含的規(guī)則先導(dǎo)部分,然后從包含的正面規(guī)則子集和負(fù)面規(guī)則子集中計(jì)算參與投票評(píng)分的多個(gè)參數(shù)值,所述多個(gè)參數(shù)值包括最大置信度(Max-conf)、規(guī)則覆蓋長度(Covered?Len)、次要置信度(Minor-conf)一最大單詞權(quán)重(MTW);
所述最大置信度(Max-conf):如果在所有正面規(guī)則子集的最大置信度與所有負(fù)面規(guī)則子集的最大置信度差值的絕對(duì)值大于預(yù)設(shè)值ε,0<ε<1,那么最大置信度的分值Vote(Max-conf)如公式2.3所示,
公式(2.3)中,PR代表正面規(guī)則,NR代表負(fù)面規(guī)則,Max-Conf(PR)為所有正面規(guī)則的置信度中最大值,Max-Conf(NR)為所有負(fù)面規(guī)則的置信度中最大值;
規(guī)則覆蓋長度(Covered?Len):分類目標(biāo)所包含的規(guī)則中的規(guī)則數(shù);
次要置信度(Minor-conf):除了置信度最大的規(guī)則以外其它規(guī)則的置信度均值;
最大單詞權(quán)重(MTW):從權(quán)重最大的單詞開始,如果某一規(guī)則包含該單詞則將其加入到該單詞對(duì)應(yīng)的規(guī)則簇中,規(guī)則簇指的是先導(dǎo)部分包含同一單詞的規(guī)則子集,并將該規(guī)則從候選規(guī)則中刪除,每個(gè)規(guī)則簇的權(quán)值等于其中包含單詞的權(quán)重,最終MTW的值等于各規(guī)則簇權(quán)重的平均值;
對(duì)每個(gè)參數(shù)metricj分別對(duì)比在正面規(guī)則子集和負(fù)面規(guī)則子集中的大小,如果正面得分更大,則Vote(metricj)=1,反之Vote(metricj)=‐1,相等則為0;最終的數(shù)值為最大置信度的得分Vote(Max‐conf),規(guī)則覆蓋長度的得分Vote(Cover‐len),次要置信長度的得分Vote(Minor‐conf),最大單詞權(quán)重的得分Vote(MTW)之和;如果此和大于零,則分類目標(biāo)test_reviewi屬于正面觀點(diǎn),反之為反面觀點(diǎn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310301065.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基于層次依賴建模的軟件FMEA方法
- 下一篇:一種混凝土鑿毛施工方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋
- 提供共享Web模塊的系統(tǒng)和方法
- 管理環(huán)球網(wǎng)網(wǎng)頁中的環(huán)球網(wǎng)媒體的系統(tǒng)及其實(shí)現(xiàn)方法
- 一種WEB業(yè)務(wù)實(shí)現(xiàn)系統(tǒng)、裝置及方法
- 高速緩存廣播信息的方法和裝置
- 基于QoS指標(biāo)和Web服務(wù)輸出參數(shù)的Web服務(wù)組合方法和裝置
- Web托管審查方法、裝置及Web托管系統(tǒng)
- 用于信息處理和Web瀏覽歷史導(dǎo)航的方法和設(shè)備及電子裝置
- 用于將web站點(diǎn)轉(zhuǎn)換為目標(biāo)web app站點(diǎn)的方法和裝置
- 用于防護(hù)WEB漏洞的方法和設(shè)備
- 一種Web攻擊報(bào)告生成方法、裝置、設(shè)備及計(jì)算機(jī)介質(zhì)





