[發明專利]一種面向有意義串挖掘的重復串提取方法及裝置有效
| 申請號: | 201010117305.2 | 申請日: | 2010-03-04 |
| 公開(公告)號: | CN101794308A | 公開(公告)日: | 2010-08-04 |
| 發明(設計)人: | 王巍;楊武;苘大鵬;董紅臣 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區南通*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 有意義 挖掘 重復 提取 方法 裝置 | ||
技術領域
本發明涉及利用計算機技術輔助網絡信息智能分析或輿情管理方法及裝置。
背景技術
隨著互聯網技術的迅猛發展,網絡在傳達社情民意方面的優勢逐步顯現出 來。繼傳統的報紙、廣播、電視之后,互聯網已經確立了自己第四媒體的主導地 位,并在表達民眾心聲、反映社會輿論方面發揮極其重要的作用。網絡輿情是通 過互聯網傳播的公眾對現實生活中某些問題所持的有較強影響力、傾向性的觀點 和言論,是網民關注的熱點,是民眾討論的焦點,集中反映一個時期網絡輿論的 中心。互聯網已經成為中國社會各階層利益表達、情感宣泄、思想碰撞的重要輿 論渠道。在這樣的背景下,如何從互聯網網頁文本中挖掘出有用信息就顯得非常 重要。有意義串是具有獨立語義,緊密耦合,具有廣泛流通性的完整的語言單元。 有意義串實際上就是以短語為特征,以有意義串作為特征表示在文本聚類和分類 上取得了良好的效果。提取有意義串首先需要提取重復串,在重復串的基礎上對 重復串進行深度分析便可以得到有意義串。
目前國內在重復串的預處理研究方面取得了一些研究成果.文獻[1][2][3]在語 料預處理中去除了停用詞以及數字標點等非單詞符號,目的是減少無用特征項對 提取重復串的干擾。文獻[1][2]在文檔之間用特定的邊界符號分隔,該邊界符號 不會出現在任何原始文檔中,這樣可以避免出現重復串跨文檔的情況,因為跨越 文檔邊界的字符串是沒有意義的。文獻[1][3]將每個單詞被轉換成一個ID,這樣 每個英語單詞或中文漢字都可以被作為一個單元處理,可以避免提取的重復串中 會出現半個漢字的情況并可以縮短重復串提取的時間。文獻[1]處理的數據為許 多文檔的集合,在語料預處理中將每個字符編號,然后記錄每個下標對應字符所 屬的文檔編號,在提取重復串時很容易判斷出每個重復串究竟出現在哪幾篇文檔 中。
本發明申請涉及到的相關的公開文件包括:
[1]黃玉蘭,龔才春,許洪波,程學旗.基于局部性原理的有意義串提取方法.第四屆全 國信息檢索與內容安全學術會議.2008-11-01;
[2]龔才春.短文本語言計算的關鍵技術研究.中國科學院研究生院(計算技術研究 所)博士論文.2008-04-01;
[3]龔才春,賀敏,張華平,許洪波,程學旗.大規模語料的頻繁模式快速發現算法.通 信學報.2007-12-25;
[4]胡吉祥,許洪波,劉悅,程學旗.重復串特征提取算法及其在文本聚類中的應用. 計算機工程.2007-01-20;
[5]胡吉祥,許洪波,劉悅,王斌,程學旗.基于重復串的短文本聚類研究.全國第八 屆計算語言學聯合學術會議(JSCL-2005).2005-08-01;
[6]黃旭,朱艷琴,羅喜召.重復串特征提取算法在不良信息檢測中的應用.第三屆 全國信息檢索與內容安全學術會議.2007-11-01;
[7]張華平,賀敏.一種面向互聯網的有意義串的挖掘方法和系 統.200710120755.5.2008-03-26;
[8]鄒綱,劉群.一種中文新詞語的檢測方法及其檢測系 統.200410000651.7.2005-07-20。
通過對上述文獻的總結和分析,發現目前的重復串提取方法中在預處理階段 存在以下缺點:1)停用詞處理不當:在語料預處理階段中去除停用詞會破壞語 料的整體結構,導致提取的重復串不準確以及提取重復串上下文時也不準確;2) 對重復串的長度沒有限制:如果提取的重復串長度過長,會導致提取的特征過于 冗余和稠密,語義過于分散;3)重復串的邊界界定不清:某些提取的重復串可 能會跨越完整的語義單元,跨越標點符號以及句子,造成提取的重復串是由不同 語義單元的內容拼湊而成,該種重復串的組成具有偶然性,無確切語義,沒有實 際價值。
發明內容
本發明的目的在于提供一種能夠從海量語料中準確高效的提取重復串,為進 一步進行有意義串深度挖掘提供技術支持的一種面向有意義串挖掘的重復串提 取方法。本發明的目的還在于提供一種面向有意義串挖掘的重復串提取裝置。
本發明的目的是這樣實現的:
本發明的面向有意義串挖掘的重復串提取方法包括下列步驟:
步驟A:語料預處理;
步驟B:重復串提取;
步驟C:重復串修剪;
所述步驟A包括些下列步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010117305.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種跨平臺應用系統實時數據交換模型
- 下一篇:多線程看門狗監控方法





