日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于文本結構權重的主題區域識別方法無效

專利信息
申請號: 201110302004.1 申請日: 2011-09-28
公開(公告)號: CN102306204A 公開(公告)日: 2012-01-04
發明(設計)人: 徐武平;徐愛萍;楊少博 申請(專利權)人: 武漢大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 代理人: 薛玲
地址: 430072 湖*** 國省代碼: 湖北;42
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 文本 結構 權重 主題 區域 識別 方法
【權利要求書】:

1.一種基于文本結構權重的主題區域識別方法,其特征在于,包括以下步驟:

步驟1,將待識別Web網頁轉換成標簽樹,具體通過以下步驟實現,

步驟1.1,通過對待識別Web網頁的HTML文檔進行字符掃描,識別出起始節點、結束節點、全結構節點和文本節點;

所述起始節點是以字符“<”開始,以字符“>”為結束,且這兩者之間不存在字符“<”和“>”的字符串;

所述結束節點是以字符“</”開始,以字符“>”為結束,且這兩者之間不存在字符“<”、“>”和“/”的字符串;

所述全結構節點是以字符“<”開始,以字符“/>”為結束,且這兩者之間不存在字符“<”、“>”和“/”的字符串;

所述文本節點是以上三種節點以外的字符串;

步驟1.2,采用解析器,依據步驟1.1識別出的起始節點、結束節點、全結構節點和文本節點進行標簽樹的構建,得到的標簽樹記為A;構建過程利用堆棧操作來確定各節點的層次關系,包括以下堆棧操作,

當解析器發現一個起始節點時,觸發入棧操作和在當前標簽樹中新建標簽操作,

當解析器發現一個結束節點時,觸發退棧操作,

當解析器發現一個全結構節點時,觸發入棧操作,同時更新標簽樹,在更新標簽樹完成后立刻退棧操作;

當解析器發現一個文本節點時,觸發入棧操作,入棧操作后立刻退棧操作;

步驟2,在步驟1所得標簽樹A中搜索相似區域,并進行去鏈接預處理,得到標簽樹B,具體通過以下步驟實現,

步驟2.1,在步驟1所得標簽樹A中搜索相似區域;所述相似區域是由一組相似節點組成的,相似節點是標簽樹A中滿足以下特性的節點,

(1)所有的節點共同擁有同一個父節點;

(2)所有節點是相鄰的;

(3)相似節點是子樹的根節點或葉子節點;

(4)與同一區域中的其他節點的相似度大于預設的閾值a;

步驟2.2,在步驟2.1搜索到的所有相似區域中識別語義鏈接塊,并將識別出的語義鏈接塊從標簽樹A中摘除,得到標簽樹B;所述語義鏈接塊是指由鏈接組成的,在視覺上呈列表狀,每一項表現為超級鏈接的網頁區域;

步驟3,對步驟2所得標簽樹B進行主題內容抽取,具體通過以下步驟實現,

步驟3.1,求出標簽樹B中所有節點的文本結構權重,找出某棵子樹鏈下文本結構權重值最大的節點,該節點所在相似區域即主題區域,該節點記為主題區域節點C;所述文本結構權重是指文本在相似區域中所占的比重;

步驟3.2,對步驟3.1所得主題區域進行去噪,包括兩個步驟;

步驟3.2.1,獲取步驟3.1所得主題區域節點C的子樹所包含的所有文本節點的長度,其中最大長度記為maxlength;

步驟3.2.2,遍歷主題區域節點C的子樹,根據最大長度maxlength對子樹中每一個文本節點的長度計算歸一化值,并與預設的閾值K比較;如果不小于預設的閾值K則保留,否則從主題區域節點C的子樹中摘除該文本節點;

步驟3.3,對步驟3.2所得去噪后的主題區域所對應的節點輸出,即輸出最底層葉子節點的文本內容,得到待識別Web網頁的主題內容。

2.如權利要求1所述基于文本結構權重的主題區域識別方法,其特征在于:步驟1.2中,標簽樹的具體構建方式包括以下步驟,

步驟1.2.1,聲明一個解析器實例和一個單例模式堆棧實例,并從待識別Web網頁的HTML文檔中讀取一個節點;

步驟1.2.2,如果讀取的節點是結束節點、全結構節點或者文本節點,則將該節點出棧,然后進入步驟1.2.3;否則,轉步驟1.2.4;

步驟1.2.3,層次值減一,并將父節點指針指向步驟1.2.2出棧的節點的父節點,更新標簽樹;

步驟1.2.4,如果讀取的節點是起始節點、全結構節點或者文本節點,則聲明一個新的堆棧項,并將該節點入棧,然后進入步驟1.2.5;否則,進入步驟1.2.7;

步驟1.2.5,層次值加一,同時將步驟1.2.4入棧的節點插入父節點指針當前指向的節點的孩子集中;

步驟1.2.6,將當前節點指針指向步驟1.2.4入棧的節點,并更新標簽樹;

步驟1.2.7,從待識別Web網頁的HTML文檔中讀取下一個節點,重復步驟1.2.2至步驟1.2.6,直到待識別Web網頁的HTML文檔解析完成,構建得到的標簽樹記為A。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110302004.1/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美极品少妇videossex| 韩日av一区二区三区| 国产精品欧美一区二区三区| 日本一区二区免费电影| 亚洲欧美另类综合| 一区二区欧美在线| 一区精品二区国产| 国产69精品久久久久777| 国产麻豆精品一区二区| 国产人成看黄久久久久久久久| 99久久99精品| 精品久久久久久中文字幕大豆网| 韩漫无遮韩漫免费网址肉| 中文字幕国内精品| 国产精品久久免费视频在线| 欧美日韩国产精品一区二区三区| 精品videossexfreeohdbbw| 麻豆精品久久久| 91精品美女| 国产精品免费自拍| 福利电影一区二区三区| 爽妇色啪网| 91福利视频导航| 欧美综合在线一区| 狠狠色噜噜狠狠狠狠黑人| 麻豆91在线| 精品91av| 午夜精品一区二区三区在线播放| 日韩无遮挡免费视频| 亚洲精品国产精品国产| 午夜片在线| 欧美三级午夜理伦三级老人| 久久国产精品99国产精| 欧美日韩一区二区三区在线播放 | 国产在线精品一区二区在线播放| 欧美日韩国产专区| 68精品国产免费久久久久久婷婷| 国产精品久久亚洲7777| 国产一区www| 久久久久亚洲精品视频| 日韩一区二区精品| 97涩国一产精品久久久久久久| 国产女人好紧好爽| 黄色av免费| 国产乱码精品一区二区三区中文| 久久免费精品国产| 91麻豆精品国产91久久久无限制版| 国产精品久久久久久久久久久久久久久久久久| 色噜噜狠狠色综合久| 91精品夜夜| 国产经典一区二区三区| 日韩亚洲精品在线| 久久久久国产精品免费免费搜索| 日韩中文字幕在线一区二区| 日韩亚洲欧美一区二区| 亚洲日本国产精品| 91精品啪在线观看国产手机| 亚洲欧美日韩精品在线观看| 日韩精品中文字幕久久臀| 精品在线观看一区二区| xxxx国产一二三区xxxx| 亚洲高清国产精品| 一区二区三区国产精华| 午夜影院啪啪| 国产日韩欧美综合在线| 久久国产精品欧美| 国产一区二区中文字幕| 欧美日韩激情一区二区| 在线国产91| 综合久久一区| 久久99精品国产麻豆婷婷洗澡| 欧美一区二区三区久久| 国产精品剧情一区二区三区| 精品在线观看一区二区| 91精品啪在线观看国产线免费| 91一区二区三区在线| 精品久久不卡| 色吊丝av中文字幕| 国产日产精品一区二区三区| 久久福利免费视频| 国产日韩欧美一区二区在线播放| 天天射欧美|