[發明專利]一種面向網頁內容無障礙訪問的頁內導航生成方法有效
| 申請號: | 201210216109.X | 申請日: | 2012-06-25 |
| 公開(公告)號: | CN102799638A | 公開(公告)日: | 2012-11-28 |
| 發明(設計)人: | 王燦;卜佳俊;周逸倫;何占盈;陳純 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 網頁 內容 障礙 訪問 導航 生成 方法 | ||
1.面向網頁內容無障礙訪問的頁內導航索引生成方法,該方法的特征在于從互聯網抓取網頁后,針對每個網頁進行以下操作:
1)使用數據條目抽取算法抽取網頁的數據條目,即網頁中通過一致的結構呈現的數據。
2)使用頁面區塊劃分算法將頁面進行區塊劃分,區塊劃分時并列的數據條目分入同一區塊;
3)利用數據條目和劃分區塊建立兩級導航索引樹,第一層級是網頁的區塊,第二層級是每個區塊中的數據條目。
2.如權利要求1所述的面向網頁內容無障礙訪問的頁內導航生成方法,其特征在于:所述的步驟1)中所述的數據條目抽取算法如下:
1)建立當前頁面的HTML標簽樹,也就是DOM樹;
2)遍歷DOM樹的所有節點,對當前節點的所有子節點進行下面的操作;遍歷起始子節點的位置i和節點的個數k,將第???????????????????????????????????????????????????的k個子節點構成的廣義節點與第????的k個子節點構成的廣義節點進行比較,計算兩個廣義節點的相對距離;其中n大于零且i+(n+2)·k-1小于等于當前節點所有子節點的個數。
廣義節點i與j之間的相對距離distance由以下公式計算得到:
Distance(i,j)=η·FED(i,j)+θ·(WD(i,j)+HD(i,j))
其中η與θ是權重系數,WD(i,j)和HD(i,j)分別是節點間的寬度差和高度差,而FED(i,j)通過以下方法計算得到,廣義節點i與廣義節點j中包含相同數量n的節點,遍歷廣義節點i中的節點,對于以i中第k個節點為根的DOM樹Tik,將其與以j中的第k個節點為根的DOM樹Tjk比較并計算得到DOM樹的編輯距離,將所有DOM樹編輯距離相加:
DOM樹相對編輯距離為通過插入節點、刪除節點和替換節點三種操作將DOM樹A轉換成DOM樹B的最小總操作代價,通過下面的公式計算得到:
ins、del、rep為將樹u轉變成樹v所進行的插入節點操作次數、刪除節點操作次數、替換節點操作次數,α、β、γ為參數;
3)從DOM樹的根節點遞歸地計算每個節點的所有子節點產生的?數據區域,其中數據區域定義為擁有同一父節點并相鄰的多個廣義節點的集合,并且滿足任意相鄰兩個廣義節點間的編輯距離小于預先設定的閾值;
4)處理每個數據區域的廣義節點以得到數據條目,如果數據條目在網頁呈現上以橫向、縱向排列,那么每個廣義節點對應一個數據條目;如果以表格方式排列,那么每個廣義節點對應的是表格中的一行,需要將一行中的每個單元格作為數據條目。
3.如權利要求1所述的面向網頁內容無障礙訪問的頁內導航生成方法,其特征在于:所述的步驟2)中所述的頁面區塊劃分算法從DOM樹根節點遞歸進行如下操作:
1)對當前節點進行區塊的初步分割,若被分割的區塊不包含任何內容,則舍棄它,否則根據下表中的規則判斷是否可以分割;
2)根據各個區塊的位置檢測分隔符,分隔符包括橫向、縱向貫穿當前節點整個區域的DOM分割線和內容之間的空隙,并計算分隔符的權重;
3)根據當前區塊內部的不一致程度判斷當前區塊是否應被分割,若區塊不一致程度大于預先設定的閾值,則進行分割,并對劃分出來的每個子區塊遞歸從步驟1)開始進行新一輪的區塊劃分;
區塊內部的不一致程度DOI表示為:
DOI=MSW-η1logα-η2log(TL-1)-η3log(DNC-1)
其中η1,η2,η3是可調節的各個影響因素的權重系數,MSW為最大分隔符權重,α為區塊面積,TL為區塊文本長度,DNC為區塊DOM節點個數與文本長度的比值。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210216109.X/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





