[發(fā)明專利]網(wǎng)頁發(fā)布時間抽取方法和用于網(wǎng)頁發(fā)布時間抽取的裝置有效
| 申請?zhí)枺?/td> | 201510955640.2 | 申請日: | 2015-12-18 |
| 公開(公告)號: | CN106897287B | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設計)人: | 丁圣勇;黃志蘭;樊勇兵;陳楠;金華敏;賴培源;區(qū)洪輝 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 許蓓 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網(wǎng)頁 發(fā)布 時間 抽取 方法 用于 裝置 | ||
本發(fā)明公開了一種網(wǎng)頁發(fā)布時間抽取方法和用于網(wǎng)頁發(fā)布時間抽取的裝置,涉及云計算領域。其中的網(wǎng)頁發(fā)布時間抽取方法包括:建立網(wǎng)頁源碼的文檔對象模型DOM樹;在DOM樹中確定網(wǎng)頁標題節(jié)點;根據(jù)網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點在DOM樹中的相對位置關系確定網(wǎng)頁發(fā)布時間。通過根據(jù)DOM中網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點的位置關系確定網(wǎng)頁發(fā)布時間,能夠準確定位網(wǎng)頁發(fā)布時間,適用于自動化的網(wǎng)頁發(fā)布時間抽取。
技術領域
本發(fā)明涉及云計算領域,尤其是一種網(wǎng)頁發(fā)布時間抽取方法和用于網(wǎng)頁發(fā)布時間抽取的裝置。
背景技術
在互聯(lián)網(wǎng)時代,網(wǎng)頁是承載消息內容發(fā)布的重要載體。除了直接從網(wǎng)頁中獲取閱讀資訊,對資訊進行深層次的分析也是人們關注的一個重點。
對網(wǎng)頁中的資訊進行分析的前提是解析出網(wǎng)頁的內容。在網(wǎng)頁抽取問題中,特別對消息資訊類網(wǎng)頁進行抽取時,網(wǎng)頁發(fā)布時間是一個重要屬性。目前主要依據(jù)正則表達式規(guī)則進行網(wǎng)頁發(fā)布時間的抽取。但是一個網(wǎng)頁往往包含多個時間,僅通過簡單正則表達式匹配出來時間并不能確定具體的網(wǎng)頁發(fā)布時間。此外,搜索引擎在抓取網(wǎng)頁時,往往是將網(wǎng)頁源碼的HTTP(HyperText Transfer Protocol,超文本傳輸協(xié)議)頭文件中的時間作為網(wǎng)頁的發(fā)布時間,然而HTTP頭文件中的時間為網(wǎng)頁最后的修改時間,網(wǎng)頁可能在發(fā)布后進行了修改,無法代表網(wǎng)頁的發(fā)布時間。
發(fā)明內容
本發(fā)明實施例所要解決的一個技術問題是:如何準確地抽取網(wǎng)頁的發(fā)布時間。
根據(jù)本發(fā)明實施例的第一個方面,提供了一種網(wǎng)頁發(fā)布時間抽取方法,其特征在于,包括:建立網(wǎng)頁源碼的文檔對象模型DOM樹;在DOM樹中確定網(wǎng)頁標題節(jié)點;根據(jù)網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點在DOM樹中的相對位置關系確定網(wǎng)頁發(fā)布時間。
在一個實施例中,根據(jù)網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點在DOM樹中的相對位置關系確定網(wǎng)頁發(fā)布時間包括:如果在網(wǎng)頁標題節(jié)點所屬的父節(jié)點下有時間節(jié)點,將時間節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間。
在一個實施例中,如果在網(wǎng)頁標題所在的標簽對應的節(jié)點所屬的父節(jié)點下有時間葉子節(jié)點,將時間葉子節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間;或者,如果在網(wǎng)頁標題所在的標簽對應的節(jié)點所屬的父節(jié)點下有時間所在的標簽,從時間所在的標簽中提取時間信息并作為網(wǎng)頁發(fā)布時間。
在一個實施例中,根據(jù)網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點在DOM樹中的相對位置關系確定網(wǎng)頁發(fā)布時間包括:確定網(wǎng)頁標題節(jié)點的父節(jié)點的次左子節(jié)點,如果次左子節(jié)點的若干子樹下的左子樹節(jié)點是時間節(jié)點,將時間節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間。
在一個實施例中,根據(jù)網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點在DOM樹中的相對位置關系確定網(wǎng)頁發(fā)布時間包括:如果在網(wǎng)頁標題節(jié)點所屬的父節(jié)點下有時間節(jié)點,將時間節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間;如果在網(wǎng)頁標題節(jié)點所屬的父節(jié)點下沒有時間節(jié)點,確定網(wǎng)頁標題節(jié)點的父節(jié)點的次左子節(jié)點,如果次左子節(jié)點的若干子樹下的左子樹節(jié)點是時間節(jié)點,將時間節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間。
在一個實施例中,根據(jù)網(wǎng)頁發(fā)布時間節(jié)點與網(wǎng)頁標題節(jié)點在DOM樹中的相對位置關系確定網(wǎng)頁發(fā)布時間包括:如果在網(wǎng)頁標題所在的標簽對應的節(jié)點所屬的父節(jié)點下有時間葉子節(jié)點,將時間葉子節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間;如果在網(wǎng)頁標題所在的標簽對應的節(jié)點所屬的父節(jié)點下沒有時間葉子節(jié)點,在網(wǎng)頁標題所在的標簽對應的節(jié)點所屬的父節(jié)點下查找是否有時間所在的標簽,如果有,從時間所在的標簽中提取時間信息并作為網(wǎng)頁發(fā)布時間;如果網(wǎng)頁標題所在的標簽對應的節(jié)點所屬的父節(jié)點沒有時間所在的標簽,確定網(wǎng)頁標題節(jié)點的父節(jié)點的次左子節(jié)點,如果次左子節(jié)點的若干子樹下的左子樹節(jié)點是時間節(jié)點,將時間節(jié)點中的時間信息提取為網(wǎng)頁發(fā)布時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經(jīng)中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510955640.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種夾持機構
- 下一篇:一種攝影穩(wěn)定器
- 將發(fā)布數(shù)據(jù)發(fā)布至不同發(fā)布主機的系統(tǒng)及其方法
- 一種技術出版物內容發(fā)布系統(tǒng)及方法
- 音/視頻流發(fā)布方法、流媒體服務器、發(fā)布端及流媒體系統(tǒng)
- 一種分布式代碼版本發(fā)布系統(tǒng)及方法
- 內容發(fā)布方法、裝置、計算機設備以及可讀存儲介質
- 文件發(fā)布方法和系統(tǒng)、發(fā)布服務器和文件生成裝置
- 軟件的發(fā)布質量管理系統(tǒng)、方法以及裝置
- 信息發(fā)布方法、裝置、電子設備及計算機可讀存儲介質
- 信息發(fā)布方法及裝置、存儲介質、終端
- 服務發(fā)布方法及裝置、服務器、存儲介質





