[發明專利]一種基于視覺效果的正文識別算法在審
| 申請號: | 201410234558.6 | 申請日: | 2014-05-30 |
| 公開(公告)號: | CN105302805A | 公開(公告)日: | 2016-02-03 |
| 發明(設計)人: | 呂永強 | 申請(專利權)人: | 廣州市邦富軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510663 廣東省廣州市天河區天河軟件園高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺效果 正文 識別 算法 | ||
技術領域
本發明涉及一種正文識別算法,具體來說涉及一種基于視覺效果的正文識別算法。
背景技術
隨著互聯網的發展與高速寬帶的普及,互聯網上越來越多的信息具有了絢麗的視覺效果,很多情況下,這些視覺效果,對語義的表達是有意義的,例如在文字中,粗體與紅色的運用,往往會表達出一種強調的意思。因此,對搜索引擎采集到的信息進行視覺分析和識別,對于互聯網信息中的語義分析,有著重要意義。
目前部分公開搜索引擎會對信息正文中的特殊標記部分進行提取,例如H1標記一直都是搜索引擎的寵兒,除了這些用于SEO((SearchEngineOptimization,搜索引擎優化)的特殊標記之外,目前的搜索引擎一般不會對信息中的視覺部分關注。
發明內容
本發明所要解決的技術問題在于克服上述現有技術中存在的缺陷,而提供一種基于視覺效果的正文識別算法對互聯網信息頁面的視覺表達部分進行內容解析,對信息正文中不同部分的視覺部分進行效果分析,最大限度的還原信息的表達者要傳遞的情緒和重點。
為實現上述目的,本發明提供一種基于視覺效果的正文識別算法,所述算法步驟包括:
(1)取出一篇網頁,提取標題和正文;
(2)提取該頁面的視覺表達部分,如HTMLTag、JS和CSS;
(3)對頁面中的有限狀態機進行分析,獲得部分特殊視覺效果信息;
(4)利用垂直渲染引擎計算出字體部分的js和css的效果屬性;
(5)根據步驟2、3和4,得到以PT為單位的整篇文章的字體尺寸列表;
(6)通過字體尺寸列表獲得字體權重排序;
(7)通過字體顏色與頁面對比,獲得字體顏色權重列表;
(8)通過字符串密度獲得密度權重列表;
(9)根據步驟6、7和8進行綜合運算,獲得整個網頁表達的語義與重心。
優選地,所述垂直渲染引擎包括:創建本地窗口對象,將該本地窗口對象的圖像數據傳送至相對應的底層接口,建立所述本地窗口對象與渲染線程的連接;所述渲染線程以外的數據線程中有圖像數據傳輸到指定的資源存儲空間后,啟動所述渲染線程對所述資源存儲空間中的所述圖像數據進行圖像渲染,生成渲染數據;實時獲取所述渲染數據進行顯示,并在渲染完畢后銷毀所述本地窗口對象,結束所述渲染線程。
優選地,當所述渲染線程以外的數據線程中有圖像數據傳輸到指定的資源存儲空間后,啟動所述渲染線程對所述資源存儲空間中的所述圖像數據進行圖像渲染,進一步為,所述渲染線程以外的數據線程中有圖像數據傳輸到指定的資源存儲空間后,將預先生成的所述腳本信息數據發送至所述底層接口中與上一次保存的進行渲染處理所執行的所述腳本信息數據進行比較,若相同,則啟動該渲染線程進行圖像渲染;若不同,則進行初始化處理生成相應的渲染線程后再進行圖像渲染。
優選地,所述腳本信息數據,進一步為字符串形式的腳本信息通過相應函數寫入顯存,編譯為二進制碼進行存儲的圖形處理器進行渲染處理時的執行數據。
優選地,啟動所述渲染線程對所述圖像數據進行圖像渲染,生成渲染數據,進一步為,啟動所述渲染線程,本地渲染接口函數以循環體的方式在該渲染線程中進行輪詢監測,在所述圖像數據傳輸至所述指定的資源存儲空間后,將該圖像數據傳遞到底層進行圖像渲染,生成渲染數據。
優選地,將所述圖像數據傳遞到底層進行圖像渲染,進一步為,將所述圖像數據以字節數組的方式傳遞到底層進行圖像渲染。
優選地,窗口對象創建模塊、渲染處理模塊以及窗口顯示處理模塊,其中,所述窗口對象創建模塊,用于創建本地窗口對象,將所述本地窗口對象的圖像數據發送至所述渲染處理模塊;所述渲染處理模塊,用于通過其內部的所述渲染線程以外的數據線程接收所述圖像數據,并在所述圖像數據傳輸到該渲染處理模塊內部指定的資源存儲空間后,啟動所述渲染線程對所述資源存儲空間中的所述圖像數據進行圖像渲染,生成渲染數據發送至所述窗口顯示處理模塊,以及用于接收所述窗口顯示處理模塊發送的終止指令結束所述渲染線程;所述窗口顯示處理模塊,用于實時獲取所述渲染數據進行顯示,在渲染完畢后生成銷毀指令對所述本地窗口對象進行銷毀,同時生成終止指令發送至所述渲染處理模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市邦富軟件有限公司,未經廣州市邦富軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410234558.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:轉盤開啟式密碼鎖
- 下一篇:一種新型滲透式波浪式結構的太陽能空氣集熱器裝置





