[發明專利]一種網頁主題確定的方法在審
| 申請號: | 201210491396.5 | 申請日: | 2012-11-27 |
| 公開(公告)號: | CN103838792A | 公開(公告)日: | 2014-06-04 |
| 發明(設計)人: | 劉立堂;李勇 | 申請(專利權)人: | 大連靈動科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 曲永祚 |
| 地址: | 116023 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 主題 確定 方法 | ||
技術領域
本發明涉及一種網絡技術,特別是一種網頁主題確定的方法;
背景技術
隨著互聯網的普及,信息技術的發展,形成了大量的信息資源;網絡資源的不斷豐富和網絡信息量的不斷膨脹,人們對網絡的依賴性越來越強,卻也給服務對象從浩如煙海的互聯網資源中快速找到自己所需的特定資源帶來了不便;由于服務對象的信息需求日趨多元化和個性化,不同的服務對象之間存在著明顯的個性差異,盡管各種搜索引擎發揮著極其重要的作用,但隨著搜索引擎中數據的不斷增長和變化,要從大量的數據中迅速的找到并獲得自己所需要的信息和服務,變得越來越困難,服務對象在查詢信息時往往會迷失他們的目標或者是得到一些比較偏頗的結果,因此很多服務對象在瀏覽搜索結果時,往往花費大量的時間和精力查看一些與自己搜索的服務無關的頁面,這使得很多服務對象對搜索引擎喪失信心,從而導致服務對象的流失;
從海量的信息中抽取出有用的資源,是當前迫切需要解決的問題,而Web頁面所表達的主要信息通常隱藏在大量無關的結構和文字中,使用戶不能迅速獲取主題信息,限制了Web的可用性,信息抽取有助于解決這一問題,信息抽取技術就是在這種背景下產生的;目前國內外研究較多的是從網上抽取一些具有格式的信息,如會議論文信息,商品信息,圖書信息;這些研究的主要目的是要把網頁中的無結構化數據或半結構化數據變成結構化數據;信息抽取的另外一個重要方向是提取出網頁中的標題和正文等主題內容,利用網頁的主題內容代替原始網頁不僅能夠縮短用戶的瀏覽的時間,而且可以顯著提高網頁自動文摘和自動分類等應用的準確性;
而在信息抽取中,如何確定網頁主題的方法一直是廣大學者研究和探索的對象,也是信息抽取中的難題;所以如何更好、更準確、更有效地確定網頁主題將是本方法解決的重點;
發明內容
本發明針對以上問題的提出,而研制一種利于信息采集技術,更好、更準確、更有效的網頁主題確定的方法;
本發明的技術手段如下:
一種網頁主題確定的方法,其特征在于包括如下步驟:
A、確定自定義主題;
A1、定制將被抽取的主題:列出網頁內的所有主題和每一主題塊內的鏈接,選擇某一個或多個主題并歸為已定義名稱的主題;
A2、當進行主題信息抽取時,首先分析網頁結構,再找出所有的主題塊,然后根據用戶定制的主題塊位置,抽取該主題塊的所有鏈接作為主題信息抽取的入口地址,最后根據已定義的主題名稱將信息分類存儲;
B、獲取網頁主題的鏈接:通過獲取鏈接錨文本文檔和該鏈接的上下文文檔作為鏈接的描述文本;
B1、鏈接上下文的提??;
鏈接上下文提取算法基于網頁的DOM樹模型,對于不同類型的語義塊中鏈接上下文的提取采用局部擴散算法;對于目錄型語義塊,根據非鏈接文字是對鏈接主題的說明將目錄型語義塊中所有的非鏈接文字作為每個鏈接的上下文,對主題型的鏈接上下文的提取,采用提取關鍵位置的內容作為鏈接上下文;
B2、局部擴散提取鏈接;基于網頁布局劃分DOM樹,對不同類型的語義塊采用其對應的上下文提取策略;
B21、主題型語義塊中鏈接上下文提?。桓鶕形奈谋镜恼Z義是用符號隔開即其中逗號和句號之間的文本表示一個相對完整的語義,所以將鏈接錨文本前面一句和后面一句文本作為鏈接的上下文;
B22、目錄型和圖片型語義塊中鏈接上下文提?。粚㈡溄渝^標簽所在的目錄型語義塊或圖片型語義塊中非鏈接文字作為該鏈接的上下文,同時將語義塊的劃分節點定義為聚合節點;
B23、網頁鏈接提取;根據具有相同主題的鏈接放置在同一個布局標簽內或者在其上下文的局部內,則在分析網頁時按照布局標簽將網頁建立成一個布局標簽樹,當進行標簽樹建立時按照網頁內的塊進行劃分,劃分后的樹是一棵由各個節點為塊且具有標號的塊組成,然后采用后序遍歷標簽樹方式來發現主題塊以及主題相關鏈接,選取鏈接數閾值為3即具有3個主題相關鏈接以上的塊為主題塊,其中選取步驟如下:
(1)輸入主題型網頁,建立布局標簽樹,初始化主題塊隊列,其中初始化用于存放主題塊序號以及該主題下的鏈接;
(2)后序遍歷下一個塊,若為空則轉到(5);
(3)判斷該主題塊內的鏈接數,如果小于3,轉到(2);
(4)將主題塊的位置序號以及主題下的相關鏈接插入;
(5)結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連靈動科技發展有限公司,未經大連靈動科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210491396.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種隧道公墓
- 下一篇:一種制備抗板結粒狀免燒鐵碳微電解填料的方法





