[發(fā)明專利]一種劃分網(wǎng)頁語義模塊的方法有效
| 申請?zhí)枺?/td> | 201410243493.1 | 申請日: | 2014-06-03 |
| 公開(公告)號: | CN103984770B | 公開(公告)日: | 2017-02-22 |
| 發(fā)明(設(shè)計)人: | 袁運(yùn)來 | 申請(專利權(quán))人: | 袁運(yùn)來 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙)32204 | 代理人: | 李玉平 |
| 地址: | 210000 江蘇省南京市雨*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 劃分 網(wǎng)頁 語義 模塊 方法 | ||
1.一種劃分網(wǎng)頁語義模塊的方法,其特征在于:
假定網(wǎng)頁上每個語義模塊單元都包含一條能在當(dāng)前網(wǎng)頁內(nèi)代表這個語義模塊的超鏈接,則每個語義模塊必包含具有如下兩個特征的節(jié)點:
a.包含至少一條有效的超鏈接的節(jié)點,記為Nu;
b.敏感詞所在的節(jié)點,記為Nw;或者敏感詞的上級節(jié)點,記為Nt;
并且:
1)Nu和Nt相同或者為兄弟節(jié)點;
2)如Nt!=Nu,則Nt不含有效的超鏈接;
3)如Nt==Nu,則Nu為dom樹根節(jié)點或者至少有一個兄弟節(jié)點也包含有效的超鏈接;
4)如Nt==Nu,則Nu必須是所有滿足以上條件的節(jié)點中最深層的節(jié)點;
確定Nt節(jié)點的位置,將Nt節(jié)點在dom樹所處的層次作為語義分割的最底層,由此層起自下而上的通過相似度和權(quán)重計算識別語義模塊。
2.如權(quán)利要求1所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:該方法基于如下兩條規(guī)律:
規(guī)律一:每個網(wǎng)頁的內(nèi)容都是不同的,在語義上都是獨立的,而每個網(wǎng)頁對應(yīng)一個URL,因此,每個URL都代表一個獨立的語義單元;
規(guī)律二:網(wǎng)頁上的每個語義模塊都會包含一個或多個超鏈接;如果一個語義模塊是完整的,則會有包含作者信息的超鏈接;如果一個語義模塊不完整,則必然會包含指向完整語義網(wǎng)頁的超鏈接。
3.如權(quán)利要求1或2所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:無效的超鏈接指左右兩側(cè)都是文本的<a>節(jié)點;有效的超鏈接為排除無效的超鏈接之外的各種超鏈接。
4.如權(quán)利要求3所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:以包含有效超鏈接的子節(jié)點數(shù)作為節(jié)點的權(quán)重值,通過計算權(quán)重來確定Nt的位置。
5.如權(quán)利要求1所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:通過結(jié)合相似度計算和節(jié)點語義特征確定語義模塊最大結(jié)合;
語義模塊所包含的子樹可能多于一個,所有子樹的父節(jié)點是相同的,并且相鄰,記每個子樹的最高頂點的集合為Tc,在確定Nt后設(shè)Tc={Nt},記不在Tc中的Nt的兄弟節(jié)點的集合為Td,按照以下步驟迭代地擴(kuò)展Tc的成員:
1).如Tc中只有一個節(jié)點(即Nt),則計算其與相鄰節(jié)點(記為Ns)的相似度,相似度超過閾值則判定Tc為完整的語義模塊,停止擴(kuò)展;相似度(Sim)計算公式如下:
其中:
n=Min(Nt樹深度,Ns樹深度);
Cmi:Nt和Ns的相同的i層子節(jié)點的數(shù)量;相同的意義為標(biāo)簽和標(biāo)簽出現(xiàn)的次序相同,標(biāo)簽都不包含class、style屬性或者class、style屬性有交集。
Lsi:Ns的i層子節(jié)點文本的總長度;
Lti:Nt的i層子節(jié)點文本的總長度;
Csi:Ns的i層tag數(shù)量;
Cti:Nt的i層tag數(shù)量;
l:l∈[1,∞),用于調(diào)整文本長度對相似度的影響,可根據(jù)網(wǎng)頁的特點設(shè)置,通常不小于網(wǎng)頁上所用語言的最短完整句子的長度;如不能根據(jù)網(wǎng)頁特點確定要設(shè)為多少,則可直接設(shè)為50;
2).將Td與Tc中相鄰的權(quán)重為0的節(jié)點移到Tc中;
3).將Td與Tc中相鄰的無文本的節(jié)點移到Tc中;
4).將Td與Tc中相鄰的日期節(jié)點和Tc中沒有的功能節(jié)點移到Tc中;功能節(jié)點依次根據(jù)以下幾種條件判斷:
10)包含的文本被<a>標(biāo)簽包圍,并且該節(jié)點重復(fù)出現(xiàn);
20)包含的文本被<a>標(biāo)簽包圍,并且<a>節(jié)點的href屬性以“#”或“javascript”開頭;
30)包含的文本被<a>標(biāo)簽包圍,并且<a>中的文本長度不足以構(gòu)成完整的句子;
5).如Td為空或者其中所有節(jié)點的權(quán)重和為0,則判定Tc、Td中的所有節(jié)點屬于同一語義模塊,需要對上層節(jié)點進(jìn)行分析,即令Nt=Nt的父節(jié)點,Tc={Nt},Td={Nt的兄弟節(jié)點},然后繼續(xù)循環(huán)執(zhí)行擴(kuò)展操作;
6).如以上步驟的執(zhí)行條件都未滿足,則結(jié)束執(zhí)行,否則繼續(xù)循環(huán)執(zhí)行;
至此,Tc敏感詞相關(guān)的節(jié)點已檢查完畢,如果包含敏感詞的節(jié)點本身就包含URL,則將其包含的URL添加到敏感詞庫中,進(jìn)行第二遍檢查。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于袁運(yùn)來,未經(jīng)袁運(yùn)來許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410243493.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:電機(jī)牽引器的防反轉(zhuǎn)用裝置
- 下一篇:一種鋼球渣回收裝置





