[發明專利]網絡文學目錄型網頁自動識別方法無效
| 申請號: | 201010245846.3 | 申請日: | 2010-08-05 |
| 公開(公告)號: | CN102346748A | 公開(公告)日: | 2012-02-08 |
| 發明(設計)人: | 陳運文;馬飛濤;宋海濤 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海浦一知識產權代理有限公司 31211 | 代理人: | 丁紀鐵 |
| 地址: | 201203 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡文學 目錄 網頁 自動識別 方法 | ||
1.一種網絡文學目錄型網頁自動識別方法,其特征在于,包括如下步驟:
步驟一、獲取當前網頁的數據體;
步驟二、在所述數據體中抽取所有包含有超鏈接地址的超鏈接標記所對應的字符串,以每一個所述超鏈接標記所對應的字符串為一個數組元素存儲于一個字符串數組一中;
步驟三、去除所述字符串數組一包含有圖像類超鏈接標記的數組元素,形成一字符串數組二;
步驟四、抽取出所述字符串數組二的各數組元素的超鏈接文本信息,以各所述超鏈接文本信息為數組元素形成一字符串數組三;
步驟五、判斷所述字符串數組三中的各數組元素是否為一目錄文本信息,并對是目錄文件信息的數組元素進行計數,得到數值一;
步驟六、用所述數值一除以所述字符串數組三的數組元素的總數得到一確認比值;
步驟七、當所述確認比值大于0.7、或者所述數值一大于15時,確定所述當前網頁為一文學目錄頁。
2.如權利要求1所述網絡文學目錄型網頁自動識別方法,其特征在于:所述數據體為html源文件,步驟二中所述超鏈接標記為<a>,所述包含有超鏈接地址的超鏈接標記是包含有“herf=”參數的所述超鏈接標記<a>;步驟二中在所述數據體中抽取所有包含有超鏈接地址的超鏈接標記所對應的字符串方法為:判斷所述數據體中是否含有“<a?herf=”標記;對包含所述“<a?herf=”標記的部分進行字符串抽取,抽取的范圍為從“<a”標記開始、到“</a>”標記結束的所有字符串。
3.如權利要求2所述網絡文學目錄型網頁自動識別方法,其特征在于:步驟三中所述圖像類超鏈接標記為“<img”標記。
4.如權利要求2所述網絡文學目錄型網頁自動識別方法,其特征在于:步驟四中抽取出所述字符串數組二的各數組元素的超鏈接文本信息的方法為:首先生成一個棧;再對所述字符串數組二的數組元素進行從頭部到尾部的字符掃描并對掃描到的當前字符進行如下判斷:當所述當前字符為“<”字符時,將所述當前字符壓棧;當所述當前字符為“>”字符時,且棧頂元素為“<”字符時,將“<”字符彈棧;當所述當前字符為非“<”字符和非“>”字符時,如果當前棧頂元素為“<”字符,則忽略所述當前字符,繼續沿字符串往前遍歷掃描;當所述當前字符為非“<”字符和非“>”字符時,如果當前棧頂元素不是“<”字符,則將當所述當前字符壓棧;當對所述字符串數組二的數組元素進行如上掃描結束后,將所述棧中的文本彈出,形成所述字符串數組三的數組元素。
5.如權利要求2所述網絡文學目錄型網頁自動識別方法,其特征在于:步驟五中判斷所述字符串數組三中的各數組元素是否為一目錄文本信息的方法為,判斷所述字符串數組三的數組元素是否滿足如下條件:所述字符串數組三的數組元素的第一個文字字符為“第”、且所述字符串數組三的數組元素的后續文字字符中含有“章”、或“節”、或“回”、或“話”;若滿足上述條件,則所述字符串數組三的數組元素為一目錄文本信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010245846.3/1.html,轉載請聲明來源鉆瓜專利網。





