[發明專利]一種自動抽取論壇數據的方法有效
| 申請號: | 201310072098.7 | 申請日: | 2013-03-07 |
| 公開(公告)號: | CN103136358A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 郭成林;彭春林;劉紅玉;高云棋;劉丹 | 申請(專利權)人: | 寧波成電泰克電子信息技術發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都宏順專利代理事務所(普通合伙) 51227 | 代理人: | 周永宏 |
| 地址: | 315040 浙江省寧*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 抽取 論壇 數據 方法 | ||
1.一種自動抽取論壇數據的方法,包括下述步驟:
a、識別主貼頁面:對給定url的網頁的進行抓取并根據網頁結構進行聚類,找出帖子頁面;
b、條目定位:計算與帖子頁面所在的類同一路徑下的相似子樹的個數的信息熵,其中熵的最大值的路徑為條目在標簽樹中的路徑;
c、識別內容并生成抽取模版:根據條目可視字串建立特征向量,再根據特征向量劃分數據集,最后區分可見詞代表的意義并生成抽取模板;
d、利用抽取模板抽取論壇數據。
2.根據權利要求1所述的一種自動抽取論壇數據的方法,其特征在于所述步驟a包括以下步驟:
a1、抓取網頁;
a2、清洗網頁并建立標簽樹:去除<script></script>、<style></style>和<!---->標簽的內容并建立標簽樹,以html作為標簽樹的根;
a3、從根節點開始對標簽樹層次遍歷并賦予權值:初始權值為1,分支節點權值value=1+log(layer),其中layer為節點所在的層數;
a4、計算相似度:將在步驟a3被賦予權值的網頁的標簽樹轉換為key:value格式的字典,其中,key為樹的根到該節點的路徑,value所述權值,對于重復出現的路徑key使用自加標號加以區分;
a5、確定最大相似度:網頁m與對其具有最大相似度的網頁n的相似度為Sim(m,n);
a6、判斷相似度Sim(m,n)與設定閾值的關系,若相似度Sim(m,n)不小于設定閾值則將網頁m聚合到網頁n的簇中,若相似度Sim(m,n)小于設定閾值則新建簇并將網頁m放入其中。
3.根據權利要求1所述的一種自動抽取論壇數據的方法,其特征在于所述步驟b包括以下步驟:
b1、根據標簽樹統計子節點數量;
b2、生成key1:value1型路徑字典:其中,key1為樹的根到該節點的路徑,value1為簇內所有網頁的在該路徑上的孩子數;
b3、計算信息量:使用香農的熵公式計算步驟b2中路徑字典的value1所代表的信息量。
4.根據權利要求1所述的一種自動抽取論壇數據的方法,其特征在于所述步驟c包括以下步驟:
c1、對條目可視字串建立四維特征向量;
c2、根據特征向量劃分數據集;
c3、對可視字符串賦予含義并形成抽取模版。
5.根據權利要求4所述的一種自動抽取論壇數據的方法,其特征在于步驟c1所述的四維特征向量為F1、F2、F3和F4,具體的:
F1:是否為數字;
F2:長度;
F3:是否為時間格式,時間格式的判定通過人工方式收集網站的時間表述格式,生成正則表達式,并按改格式轉換為時間戳計算方法;
F4:是否為超鏈接文字;
其中,F1、F2、F3和F4為所述四維特征向量的四個維度符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波成電泰克電子信息技術發展有限公司,未經寧波成電泰克電子信息技術發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310072098.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防止OGS黃光產線玻璃混料的報警系統
- 下一篇:自動報警的玻璃及報警系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





