[發明專利]一種面向網絡評論的觀點主題識別方法和系統無效
| 申請號: | 200910227304.0 | 申請日: | 2009-12-04 |
| 公開(公告)號: | CN101727487A | 公開(公告)日: | 2010-06-09 |
| 發明(設計)人: | 李弼程;周杰;林琛;陳剛;李真 | 申請(專利權)人: | 中國人民解放軍信息工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450002 *** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 網絡 評論 觀點 主題 識別 方法 系統 | ||
技術領域
本發明涉及數據挖掘、機器學習、中文信息處理技術領域,特別是涉及一種面向網絡評論的觀點主題識別方法和系統。
背景技術
目前,隨著信息傳播技術的發展和普及,互聯網已成為當今社會人們獲取信息的重要渠道。互聯網快捷、方便的特性,以及強大的交互能力,為人們交流思想、闡明觀點、發表意見提供了新的平臺。通過互聯網,人們對社會公共事務特別是社會熱點焦點問題發表有一定影響力、帶傾向性的意見或言論,針對這類文本的觀點分析具有廣泛的實用價值。然而,網絡中可供人們談論的主題非常多,并且網絡評論的觀點主題會隨著評論數據的變化而改變。因此首先需要完成網絡評論中談論主題的自動識別,從而實現評論的觀點分析。現有的觀點主題識別方法都是在限定領域內展開,其方法的基本思想是:在特定領域內,觀點主題具有比較穩定的特性。如產品評論領域,針對特定產品評論的觀點主題一般為產品名稱、產品元件及其相關屬性,并且在一定時間段內不會變動。由于特定領域內的觀點主題具備這種穩定特性,目前常見的識別方法是:首先通過全自動或半自動的方式構建特征本體庫,再由查詢匹配確定評論的主題。在特征本體庫的構建過程中,一般選取名詞和名詞短語作為候選主題,再通過各種規則進行篩選從而確定領域的特征本體。
上述方法中的觀點主題識別是通過查詢已經構建的特征本體庫實現,致使觀點分析局限于該特定領域而無法得到擴展。由于網絡中人們談論話題的多樣性,并且隨著時間的推移會不斷涌現出新的話題,如網絡輿情分析中不同事件對應不同的觀點主題,構建特征本體庫的方法不再有效,需要對觀點主題進行自動識別。
發明內容
有鑒于此,本發明的目的在于提供一種面向網絡評論的觀點主題識別方法,克服觀點分析的領域限制,不需構建本體庫,從整體的角度識別觀點主題,有效避開了單句觀點分析存在的困難,在面對寬領域和隨時間動態改變的網絡評論數據實現自動識別短語模式的觀點主題。
為達到上述目的,本發明的面向網絡評論的觀點主題識別方法,包括以下步驟:
a.文本輸入
輸入評論源和所有評論文本;
b.文本預處理
對輸入的文本進行詞語切分和詞性標注,去除停用詞、標點符號和特定虛詞,并統計詞語的詞頻信息;
c.主題詞判決
計算詞語權重值,如果詞語權重值大于設定的閾值,則該詞語判斷為觀點主題詞;
d.主題構建
將零散的觀點主題詞合并成為完整的觀點主題;
e.主題篩選
通過觀點主題過濾確定有效的觀點主題。
進一步,在c步驟中,計算詞語權重時,權重因素包括整體詞頻權重、詞性權重、詞語出現的位置權重和詞語長度權重。
進一步,在計算整體詞頻權重時,引入同義詞林消除同義詞引起的主題分散問題。
進一步,所述權重因素還包括詞語情感權重,計算詞語情感權重時,引入情感詞庫,詞語出現在包含情感詞的句子中的歸一化頻率為詞語情感權重。
進一步,所述的閾值可以設定為固定值或百分比,也可根據不同的話題選取不同的閾值,也可以根據詞語權重值的中位數或均值動態計算閾值。
進一步,在d步驟中,以觀點主題詞為線索詞,并添加位置約束條件,采用位置相關的頻繁項挖掘算法,實現未登錄詞和詞組類型的觀點主題識別。
進一步,在所述的頻繁項挖掘算法中,根據實際情況限定線索詞周圍詞語的窗口長度。
進一步,觀點主題過濾包括詞性組合過濾、單字選擇過濾和包含關系過濾。
本發明的另一個目的在于提供一種實現上述面向網絡評論的觀點主題識別方法的系統,該系統包括:
評論輸入模塊,用于輸入評論源和所有評論文本;預處理模塊,用于實現包括詞語切分、詞性標注、去除停用詞、標點符號和特定虛詞、統計詞語的詞頻信息的操作;主題詞判決模塊,用于根據權重計算公式計算詞語權重值并根據設定的閾值判別觀點主題詞;主題構建模塊,用于將零散的觀點主題詞通過頻繁項挖掘算法合并成為完整的觀點主題;主題篩選模塊,用于通過詞性組合過濾、單字選擇過濾和包含關系過濾,最終確定有效的觀點主題。
本發明的有益效果是:
由于現有的面向產品評論的觀點主題識別方法在普通評論數據中不再有效,并且現有的面向網絡評論的觀點分析方法需要一種方法能夠自動識別觀點的主題。與現有技術相比,本發明提供了一種面向網絡評論的觀點主題識別方法和系統,它克服了觀點分析的領域限制,不需構建本體庫。它從整體的角度識別觀點主題,有效地避開了單句觀點分析存在的困難,并且本發明能夠自動識別短語模式的觀點主題,適合于寬領域和隨時間動態改變的網絡評論數據
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍信息工程大學,未經中國人民解放軍信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910227304.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于變分多尺度方法的通用算法及并行計算系統
- 下一篇:信息獲取系統及方法





