[發明專利]一種基于復雜網絡的博客關鍵詞提取方法在審

申請號：	201510368622.4	申請日：	2015-06-29
公開（公告）號：	CN104933032A	公開（公告）日：	2015-09-23
發明（設計）人：	屈鴻;王曉斌;吳詩雯;馮旻昱;馮魯橋	申請（專利權）人：	電子科技大學
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	成都弘毅天承知識產權代理有限公司 51230	代理人：	楊保剛;徐金瓊
地址：	611731 四川省***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于復雜網絡博客關鍵詞提取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

一種基于復雜網絡的博客關鍵詞提取方法，利用復雜網絡的拓撲特性中的節點介數、節點的度，提出節點綜合重要性計算公式進行博客文本關鍵詞的提取,涉及復雜網絡建模，復雜網絡拓撲特性，機器學習等領域，具體涉及基于復雜網絡建模技術領域。

背景技術

隨著信息技術的飛速發展和互聯網的普及，博客的文本數據庫呈現出幾何級數的增長。如何快速掌握某篇文章的主題、把握作者思想，成為節約讀者時間、提高閱讀速度的關鍵問題。關鍵詞作為文章主題和作者思想的體現能夠有效解決這個問題，然而除學術論文包含關鍵字外，大量的文檔沒有關鍵字，尤其是互聯網上的眾多網頁。語言專家手工提取關鍵字，其準確率較高，但對海量文檔信息手工提取是一個繁重并不可行的方法。如果能采用人工智能的方法提取關鍵字，會大大地提高效率。因此，運用何種方法進行關鍵詞自動提取的研究具有重要的現實意義。

關鍵詞提取算法可分為兩類：基于訓練集的關鍵詞提取策略和不需要訓練集的關鍵字提取策略。基于訓練集的方法將關鍵詞提取視為分類問題，通過將文檔中出現的詞語劃分到關鍵字類或非關鍵字類，再從關鍵字類中選擇若干個詞語作為關鍵字，該類算法由Peter.D.Turney首次提出，其技術己日趨成熟。不需要訓練集的算法，可分為以下四類：基于統計的方法，如頻率統計；基于詞語圖的方法，如KeyGraph；基于詞語網絡的方法，如中介性指標(BC，Betweenness?Centrality)；基于SWN的方法；上述四種方法都是建立在詞頻基礎上。基于統計的方法簡單快速，能夠提取高頻詞語，卻忽略對文檔具有重要意義但出現頻率不高的詞語，因此提取的關鍵字具有片面性傳統的關鍵詞提取算法只注重文檔表層統計特性(如詞頻、詞句位置、詞語長度等)，忽略文檔的語義結構和結構信息，導致關鍵詞語義和結構信息的缺失。

隨著網絡科學已被越來越多的人了解與熟知，并且已經成為許多的科學家進行跨領域研究的工具，其中運用網絡科學進行自然語言分析也是研究者所熱衷的課題。其中運用復雜網絡理論對實際網絡進行建模進而根據網絡拓撲特性進行具?體問題的分析已成為研究者進行實際問題的探索中有力的方式。現有關鍵詞提取方法的不足之處在于：在分析已有基于詞語網絡的關鍵字提取算法的基礎上，所提取的關鍵字不包括高頻單詞和短語，而且對文檔中心內容貢獻大但出現頻率不高的單詞和短語提取不到。

發明內容

本發明針對現有技術的不足之處提供了一種基于復雜網絡的博客關鍵詞提取方法，可以提取包括高頻詞匯和短語的關鍵字，而且對提取文檔中心內容貢獻大但出現頻率不高的單詞短語有較好的效果。

為了實現上述目的，本發明采用的技術方案為：

一種基于復雜網絡的博客關鍵詞提取方法，其特征在于，如下步驟：

(1)通過爬蟲獲取博客文本；

(2)對爬蟲獲取的博客文本進行預處理，即得到已斷句、分詞和無停用詞的格式規范的博客文本；

(3)對博客文本進行預處理后，將博客文本中單詞之間的相鄰關系對應于博客文本網絡節點之間的連接關系，根據博客文本中單詞之間的相鄰關系進行網絡模型構建；

(4)根據博客文本中單詞之間的相鄰關系進行網絡模型構建后，運用節點拓撲性質制定節點重要性指標計算公式，節點的重要性是指節點的度和節點的介數；

(5)根據節點重要性指標計算公式提取對博客文本進行預處理后的博客文本中的關鍵詞；

(6)輸出提取的對博客文本進行預處理后的博客文本中的關鍵詞。

進一步，所述步驟(2)中，對爬蟲獲取的博客文本進行預處理的具體步驟如下：

(21)文本規范化，即將其他格式的博客文本轉化成標準的txt格式進行關鍵詞的提取；