[發明專利]一種基于視覺效果的正文識別算法在審
| 申請號: | 201410234558.6 | 申請日: | 2014-05-30 |
| 公開(公告)號: | CN105302805A | 公開(公告)日: | 2016-02-03 |
| 發明(設計)人: | 呂永強 | 申請(專利權)人: | 廣州市邦富軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510663 廣東省廣州市天河區天河軟件園高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺效果 正文 識別 算法 | ||
1.一種基于視覺效果的正文識別算法,所述算法步驟包括:
(1)取出一篇網頁,提取標題和正文;
(2)提取該頁面的視覺表達部分,如HTMLTag、JS和CSS;
(3)對頁面中的有限狀態機進行分析,獲得部分特殊視覺效果信息;
(4)利用垂直渲染引擎計算出字體部分的js和css的效果屬性;
(5)根據步驟2、3和4,得到以PT為單位的整篇文章的字體尺寸列表;
(6)通過字體尺寸列表獲得字體權重排序;
(7)通過字體顏色與頁面對比,獲得字體顏色權重列表;
(8)通過字符串密度獲得密度權重列表;
(9)根據步驟6、7和8進行綜合運算,獲得整個網頁表達的語義與重心。
2.根據權利要求1中所述的基于視覺效果的正文識別算法,其特征在于:所述垂直渲染引擎包括:創建本地窗口對象,將該本地窗口對象的圖像數據傳送至相對應的底層接口,建立所述本地窗口對象與渲染線程的連接;所述渲染線程以外的數據線程中有圖像數據傳輸到指定的資源存儲空間后,啟動所述渲染線程對所述資源存儲空間中的所述圖像數據進行圖像渲染,生成渲染數據;實時獲取所述渲染數據進行顯示,并在渲染完畢后銷毀所述本地窗口對象,結束所述渲染線程。
3.根據權利要求2中所述的基于視覺效果的正文識別算法,其特征在于:當所述渲染線程以外的數據線程中有圖像數據傳輸到指定的資源存儲空間后,啟動所述渲染線程對所述資源存儲空間中的所述圖像數據進行圖像渲染,進一步為,所述渲染線程以外的數據線程中有圖像數據傳輸到指定的資源存儲空間后,將預先生成的所述腳本信息數據發送至所述底層接口中與上一次保存的進行渲染處理所執行的所述腳本信息數據進行比較,若相同,則啟動該渲染線程進行圖像渲染;若不同,則進行初始化處理生成相應的渲染線程后再進行圖像渲染。
4.根據權利要求3中所述的基于視覺效果的正文識別算法,其特征在于:所述腳本信息數據,進一步為字符串形式的腳本信息通過相應函數寫入顯存,編譯為二進制碼進行存儲的圖形處理器進行渲染處理時的執行數據。
5.根據權利要求1中所述的基于視覺效果的正文識別算法,其特征在于:啟動所述渲染線程對所述圖像數據進行圖像渲染,生成渲染數據,進一步為,啟動所述渲染線程,本地渲染接口函數以循環體的方式在該渲染線程中進行輪詢監測,在所述圖像數據傳輸至所述指定的資源存儲空間后,將該圖像數據傳遞到底層進行圖像渲染,生成渲染數據。
6.根據權利要求1中所述的基于視覺效果的正文識別算法,其特征在于:將所述圖像數據傳遞到底層進行圖像渲染,進一步為,將所述圖像數據以字節數組的方式傳遞到底層進行圖像渲染。
7.根據權利要求6中所述的基于視覺效果的正文識別算法,其特征在于:窗口對象創建模塊、渲染處理模塊以及窗口顯示處理模塊,其中,所述窗口對象創建模塊,用于創建本地窗口對象,將所述本地窗口對象的圖像數據發送至所述渲染處理模塊;所述渲染處理模塊,用于通過其內部的所述渲染線程以外的數據線程接收所述圖像數據,并在所述圖像數據傳輸到該渲染處理模塊內部指定的資源存儲空間后,啟動所述渲染線程對所述資源存儲空間中的所述圖像數據進行圖像渲染,生成渲染數據發送至所述窗口顯示處理模塊,以及用于接收所述窗口顯示處理模塊發送的終止指令結束所述渲染線程;所述窗口顯示處理模塊,用于實時獲取所述渲染數據進行顯示,在渲染完畢后生成銷毀指令對所述本地窗口對象進行銷毀,同時生成終止指令發送至所述渲染處理模塊。
8.根據權利要求7中所述的基于視覺效果的正文識別算法,其特征在于:所述渲染處理模塊,進一步用于,通過其內部的所述渲染線程以外的數據線程接收所述圖像數據,并在所述圖像數據傳輸到指定的資源存儲空間后,將預先生成的所述腳本信息數據與上一次保存的進行渲染處理所執行的所述腳本信息數據進行比較,若相同,則啟動所述渲染線程對所述資源存儲空間中的進行圖像渲染;若不同,則進行初始化處理生成相應的渲染線程后再進行圖像渲染,生成渲染數據發送至所述窗口顯示處理模塊。
9.根據權利要求8中所述的基于視覺效果的正文識別算法,其特征在于:所述腳本信息數據,進一步為字符串形式的腳本信息通過相應函數寫入顯存,編譯為二進制碼進行存儲的圖形處理器進行渲染處理時的執行數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市邦富軟件有限公司,未經廣州市邦富軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410234558.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:轉盤開啟式密碼鎖
- 下一篇:一種新型滲透式波浪式結構的太陽能空氣集熱器裝置





