[發(fā)明專利]一種基于復(fù)雜網(wǎng)絡(luò)的博客關(guān)鍵詞提取方法在審
| 申請?zhí)枺?/td> | 201510368622.4 | 申請日: | 2015-06-29 |
| 公開(公告)號: | CN104933032A | 公開(公告)日: | 2015-09-23 |
| 發(fā)明(設(shè)計)人: | 屈鴻;王曉斌;吳詩雯;馮旻昱;馮魯橋 | 申請(專利權(quán))人: | 電子科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 成都弘毅天承知識產(chǎn)權(quán)代理有限公司 51230 | 代理人: | 楊保剛;徐金瓊 |
| 地址: | 611731 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 復(fù)雜 網(wǎng)絡(luò) 博客 關(guān)鍵詞 提取 方法 | ||
1.一種基于復(fù)雜網(wǎng)絡(luò)的博客關(guān)鍵詞提取方法,其特征在于,如下步驟:
(1)通過爬蟲獲取博客文本;
(2)對爬蟲獲取的博客文本進行預(yù)處理,即得到已斷句、分詞和無停用詞的格式規(guī)范的博客文本;
(3)對博客文本進行預(yù)處理后,將博客文本中單詞之間的相鄰關(guān)系對應(yīng)于博客文本網(wǎng)絡(luò)節(jié)點之間的連接關(guān)系,根據(jù)博客文本中單詞之間的相鄰關(guān)系進行網(wǎng)絡(luò)模型構(gòu)建;
(4)根據(jù)博客文本中單詞之間的相鄰關(guān)系進行網(wǎng)絡(luò)模型構(gòu)建后,運用節(jié)點拓撲性質(zhì)制定節(jié)點重要性指標計算公式,節(jié)點的重要性是指節(jié)點的度和節(jié)點的介數(shù);
(5)根據(jù)節(jié)點重要性指標計算公式提取對博客文本進行預(yù)處理后的博客文本中的關(guān)鍵詞;
(6)輸出提取的對博客文本進行預(yù)處理后的博客文本中的關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的一種基于復(fù)雜網(wǎng)絡(luò)的博客關(guān)鍵詞提取方法,其特征在于,所述步驟(2)中,對爬蟲獲取的博客文本進行預(yù)處理的具體步驟如下:
(21)文本規(guī)范化,即將其他格式的博客文本轉(zhuǎn)化成標準的txt格式進行關(guān)鍵詞的提取;
(22)斷句、分詞處理,即根據(jù)博客文本中標點符號以及單詞與單詞之間的空格進行單詞與短語的分割;
(23)大小寫變換,即將斷句、分詞處理后的博客文本中的大寫字母全部改為小寫字母;
(24)詞態(tài)變換,即將大小寫變換后的博客文本中存在英文單詞的,將英文單詞統(tǒng)一變換成該單詞的原型模式;
(25)去停用詞,即預(yù)先收集好停用詞,實驗中去除這些停用詞,減少無關(guān)詞的干擾,提高關(guān)鍵詞提取的準確率。
3.根據(jù)權(quán)利要求1所述的一種基于復(fù)雜網(wǎng)絡(luò)的博客文本關(guān)鍵詞提取方法,其特征在于,所述步驟(3)中,根據(jù)博客文本中單詞之間的相鄰關(guān)系進行網(wǎng)絡(luò)模型構(gòu)建的具體步驟如下:
(31)對經(jīng)過預(yù)處理后的博客文本的單詞進行標號,標號對應(yīng)于構(gòu)建的博客文本中單詞網(wǎng)絡(luò)的節(jié)點編號,網(wǎng)絡(luò)的節(jié)點編號是根據(jù)阿拉伯數(shù)字順序增長進行標記,同一個單詞有且僅有一個標號;
(32)根據(jù)博客文本中單詞之間的位置關(guān)系構(gòu)建單詞網(wǎng)絡(luò),若兩個單詞是相鄰的,那么這兩個單詞在網(wǎng)絡(luò)中對應(yīng)標號的節(jié)點之間則增加一條連邊,否則這兩個單詞在網(wǎng)絡(luò)中對應(yīng)標號的節(jié)點之間則不增加連邊;
(33)根據(jù)步驟(31)和步驟(32)遍歷博客文本中的單詞,得到網(wǎng)絡(luò)模型。
4.根據(jù)權(quán)利要求1所述的一種基于復(fù)雜網(wǎng)絡(luò)的博客關(guān)鍵詞提取方法,其特征在于,所述步驟(4)中,運用節(jié)點拓撲性質(zhì)制定節(jié)點重要性指標計算公式的具體步驟如下:
(41)計算構(gòu)建的網(wǎng)絡(luò)模型的每一個節(jié)點的度和節(jié)點的介數(shù);
(42)通過計算的節(jié)點的度和節(jié)點的介數(shù),對比PageRank算法,制定出節(jié)點重要性計算公式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510368622.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





