日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于復雜網絡的博客關鍵詞提取方法在審

專利信息
申請號: 201510368622.4 申請日: 2015-06-29
公開(公告)號: CN104933032A 公開(公告)日: 2015-09-23
發明(設計)人: 屈鴻;王曉斌;吳詩雯;馮旻昱;馮魯橋 申請(專利權)人: 電子科技大學
主分類號: G06F17/27 分類號: G06F17/27;G06F17/30
代理公司: 成都弘毅天承知識產權代理有限公司 51230 代理人: 楊保剛;徐金瓊
地址: 611731 四川省*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 復雜 網絡 博客 關鍵詞 提取 方法
【說明書】:

技術領域

一種基于復雜網絡的博客關鍵詞提取方法,利用復雜網絡的拓撲特性中的節點介數、節點的度,提出節點綜合重要性計算公式進行博客文本關鍵詞的提取,涉及復雜網絡建模,復雜網絡拓撲特性,機器學習等領域,具體涉及基于復雜網絡建模技術領域。

背景技術

隨著信息技術的飛速發展和互聯網的普及,博客的文本數據庫呈現出幾何級數的增長。如何快速掌握某篇文章的主題、把握作者思想,成為節約讀者時間、提高閱讀速度的關鍵問題。關鍵詞作為文章主題和作者思想的體現能夠有效解決這個問題,然而除學術論文包含關鍵字外,大量的文檔沒有關鍵字,尤其是互聯網上的眾多網頁。語言專家手工提取關鍵字,其準確率較高,但對海量文檔信息手工提取是一個繁重并不可行的方法。如果能采用人工智能的方法提取關鍵字,會大大地提高效率。因此,運用何種方法進行關鍵詞自動提取的研究具有重要的現實意義。

關鍵詞提取算法可分為兩類:基于訓練集的關鍵詞提取策略和不需要訓練集的關鍵字提取策略。基于訓練集的方法將關鍵詞提取視為分類問題,通過將文檔中出現的詞語劃分到關鍵字類或非關鍵字類,再從關鍵字類中選擇若干個詞語作為關鍵字,該類算法由Peter.D.Turney首次提出,其技術己日趨成熟。不需要訓練集的算法,可分為以下四類:基于統計的方法,如頻率統計;基于詞語圖的方法,如KeyGraph;基于詞語網絡的方法,如中介性指標(BC,Betweenness?Centrality);基于SWN的方法;上述四種方法都是建立在詞頻基礎上。基于統計的方法簡單快速,能夠提取高頻詞語,卻忽略對文檔具有重要意義但出現頻率不高的詞語,因此提取的關鍵字具有片面性傳統的關鍵詞提取算法只注重文檔表層統計特性(如詞頻、詞句位置、詞語長度等),忽略文檔的語義結構和結構信息,導致關鍵詞語義和結構信息的缺失。

隨著網絡科學已被越來越多的人了解與熟知,并且已經成為許多的科學家進行跨領域研究的工具,其中運用網絡科學進行自然語言分析也是研究者所熱衷的課題。其中運用復雜網絡理論對實際網絡進行建模進而根據網絡拓撲特性進行具?體問題的分析已成為研究者進行實際問題的探索中有力的方式。現有關鍵詞提取方法的不足之處在于:在分析已有基于詞語網絡的關鍵字提取算法的基礎上,所提取的關鍵字不包括高頻單詞和短語,而且對文檔中心內容貢獻大但出現頻率不高的單詞和短語提取不到。

發明內容

本發明針對現有技術的不足之處提供了一種基于復雜網絡的博客關鍵詞提取方法,可以提取包括高頻詞匯和短語的關鍵字,而且對提取文檔中心內容貢獻大但出現頻率不高的單詞短語有較好的效果。

為了實現上述目的,本發明采用的技術方案為:

一種基于復雜網絡的博客關鍵詞提取方法,其特征在于,如下步驟:

(1)通過爬蟲獲取博客文本;

(2)對爬蟲獲取的博客文本進行預處理,即得到已斷句、分詞和無停用詞的格式規范的博客文本;

(3)對博客文本進行預處理后,將博客文本中單詞之間的相鄰關系對應于博客文本網絡節點之間的連接關系,根據博客文本中單詞之間的相鄰關系進行網絡模型構建;

(4)根據博客文本中單詞之間的相鄰關系進行網絡模型構建后,運用節點拓撲性質制定節點重要性指標計算公式,節點的重要性是指節點的度和節點的介數;

(5)根據節點重要性指標計算公式提取對博客文本進行預處理后的博客文本中的關鍵詞;

(6)輸出提取的對博客文本進行預處理后的博客文本中的關鍵詞。

進一步,所述步驟(2)中,對爬蟲獲取的博客文本進行預處理的具體步驟如下:

(21)文本規范化,即將其他格式的博客文本轉化成標準的txt格式進行關鍵詞的提取;

(22)斷句、分詞處理,即根據博客文本中標點符號以及單詞與單詞之間的空格進行單詞與短語的分割;

(23)大小寫變換,即將斷句、分詞處理后的博客文本中的大寫字母全部改?為小寫字母;

(24)詞態變換,即將大小寫變換后的博客文本中存在英文單詞的,將英文單詞統一變換成該單詞的原型模式;

(25)去停用詞,即預先收集好停用詞,實驗中去除這些停用詞,減少無關詞的干擾,提高關鍵詞提取的準確率。

進一步,所述步驟(3)中,根據博客文本中單詞之間的相鄰關系進行網絡模型構建的具體步驟如下:

(31)對經過預處理后的博客文本的單詞進行標號,標號對應于構建的博客文本中單詞網絡的節點編號,網絡的節點編號是根據阿拉伯數字順序增長進行標記,同一個單詞有且僅有一個標號;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201510368622.4/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美一区二区精品久久911| 在线亚洲精品| 麻豆精品久久久| 少妇厨房与子伦在线观看| 香港三日本三级三级三级| 日本一二三不卡| 国产欧美久久一区二区三区| 日韩av在线播放网址| 国产乱码一区二区| 欧美一区二区三区激情在线视频| 制服.丝袜.亚洲.另类.中文| 亚洲三区在线| 激情久久综合网| 国产一区二区播放| 十八无遮挡| 国产精品久久亚洲7777| 中文丰满岳乱妇在线观看| 97国产婷婷综合在线视频,| 国产高清精品一区二区| 日韩精品一区二区三区四区在线观看| 男人的天堂一区二区| 久久精品麻豆| 日韩精品一区二区三区中文字幕| 国产一级不卡视频| 国产精品免费专区| 久久密av| 国产视频精品一区二区三区| 福利电影一区二区三区| 国产精品女人精品久久久天天| 中文字幕一区二区三区免费视频| 91久久久爱一区二区三区| 欧美精品一级二级| 久久国产激情视频| 九九久久国产精品| 欧美一区二区免费视频| 激情久久综合网| 日韩精品免费一区| 国产一区二区三区伦理| 久久一区二| 国产精品国产三级国产专播精品人 | 国产理论一区| 99精品欧美一区二区三区美图| 国产三级国产精品国产专区50| 日韩av在线播| 国内久久久| 国产91电影在线观看| 欧美乱偷一区二区三区在线| 久久免费精品国产| 亚洲国产欧美一区| 国产精品久久久久久久久久软件| 欧美亚洲精品一区二区三区| 色综合久久久| 日韩精品久久久久久久酒店| 国产另类一区| 国产日韩欧美专区| 99国产精品99久久久久久粉嫩| 色噜噜狠狠色综合久| 亚洲国产欧美一区二区丝袜黑人 | 亚洲国产精品一区在线| 曰韩av在线| 中文字幕久久精品一区| 国产69精品久久久久男男系列| 99精品国产99久久久久久97| 国产一区二区三区网站| 狠狠色噜噜综合社区| 久99久视频| 欧美精品在线视频观看| 99精品区| 电影午夜精品一区二区三区| av国产精品毛片一区二区小说| 四虎国产精品久久| 日韩av在线导航| 黄毛片免费| 精品国产乱码久久久久久a丨| 国产丝袜一区二区三区免费视频 | 日韩精品一区二区三区中文字幕| 国产欧美综合一区| 狠狠色噜噜狠狠狠狠色吗综合 | 久久精品国产99| 色综合久久综合| 北条麻妃久久99精品| 欧美日韩久久一区|