[發明專利]一種半自動化學習式的表單特征提取方法在審
| 申請號: | 201410317562.9 | 申請日: | 2014-07-07 |
| 公開(公告)號: | CN104063488A | 公開(公告)日: | 2014-09-24 |
| 發明(設計)人: | 陳超一;范淵;吳永越;鄭學新;姜毅 | 申請(專利權)人: | 成都安恒信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 廖曾 |
| 地址: | 610000 四川省成都市高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 半自動 化學 表單 特征 提取 方法 | ||
技術領域
本發明涉及機器學習、數據挖掘、上網體驗領域,具體是指一種半自動化學習式的表單特征提取方法。
背景技術
隨著互聯網信息技術的普及和平民化,通過瀏覽器訪問網站檢索信息和交流已經成為提高現代社會生產力的必備技能之一。
在訪問網站檢索信息時,可能需要頻繁的向網站輸入信息,如:用戶登錄、發表評論、參加投票等,有些信息是需要重復且頻繁輸入的,如:用戶登錄,在不同的網站,就要輸入不同的用戶名或密碼等信息;而網上購物,購買不同的商品,就要多次輸入自己的地址、郵編、收貨人姓名等信息。
因為這些信息可能需要頻繁、大量的輸入,且信息具有單一性,例如網上購物,自己的地址通常不會經常改變,而姓名更是如此,所以幾乎所有的現代標記語言處理裝置外殼,即標記語言處理裝置的人機交互接口,如瀏覽器界面,提供了自動登錄和表單自動代填功能,減輕人類的重復勞動負擔,提高生產效率。
如果標記語言處理裝置外殼需要將數據自動填寫到標記語言處理裝置中的表單中,必須知道相關條目所對應的表單項目,如:收件人姓名對應第1個輸入框,收件人地址對應第2個輸入框,收件人郵編對應第3個輸入框。在如此規則下,就必須要知道表單的結構特征,才能正確的將數據填寫入對應的項目中。
萬維網聯盟提出的HTML,即超文本標記語言,簡稱“標記語言”,語言標準使互聯網可以通過統一、標準化的語言生成由標記構成的網頁文件,簡稱“標記文件”。HTML語言以樹形結構的標簽為基準,提供了一系列的標準基礎部件,標記語言處理裝置只要實現HTML標準,就可以保持通用性。
在使用標記語言處理裝置加載網站的標記語言文件時,如果需要向網站提交數據,如聊天、發表評論、買賣商品、保存個性化信息等,網站就必須提供采集瀏覽器數據采集數據的途徑,為此HTML語言標準提供了“表單(form)”部件,一個表單通常包含以下元素:<form>:聲明這是一個表單,這之中的數據會被提交到服務器;<input>:<form>標簽的子節點,聲明這是一個單行文本輸入框,根據type屬性,會呈現出不同的樣式,如:<input type=text>,一個普通的輸入框;<input type=password>,一個隱藏了輸入內容的密碼輸入框;提交表單按鈕:提交表單實為<input>標簽的一個type屬性,當<input>標簽的type屬性被設置為submit時,會在標記語言處理裝置中呈現出一個按鈕,當按鈕被激活時,會將<form>標簽中所有合法<input>用戶輸入的數據全部提交到服務器。
現有特征分析方法,如圖1所示,每當標記語言處理裝置發出標記文件加載完畢通知時,就假設頁面會出現包含以上元素的內容,再通過標記語言處理裝置提供的接口對標記文件進行分析,取出表單的<from><input>特征,但此種方法在高速發展的動態標記加載技術面前已經顯得力不從心,因為動態標記加載技術會導致以下問題:
標記語言處理裝置發出網頁加載完畢通知后,標記文件中并沒有登錄框的內容,而呈現表單所需要的標記語言實際上正在由標記文件中的JavaScript腳本繼續加載,也就是說,此時呈現表單所需要的標記語言集合并沒有真正加載完成,所以表單特征提取會失敗;
提交按鈕并不是<input type=submit>,可能是任意一個加入了調用JavaScript腳本代碼的HTML標簽,而提交表單是由JavaScript腳本來完成的,所以表單特征提取會失敗;
甚至<input>輸入框也并沒有被<form>標簽所包裹。這就導致瀏覽器發出網頁加載完畢通知后不能滿足靜態掃描的規則,導致查詢失敗。
發明內容
本發明的目的在于通過人工參與的方式,提供一種能夠進一步提取具有完整性、真實性、精確性的網頁表單結構特征的半自動化學習式的表單特征提取方法。
本發明通過下述技術方案實現一種半自動化學習式的表單特征提取方法,包括以下步驟:
(1)啟動學習裝置,學習裝置內置標記語言處理裝置;
(2)在地址欄輸入標記語言文件的位置;
(3)學習裝置通過內置瀏覽器加載標記語言文件;
(4)加載完成后,內置瀏覽器通知學習裝置標記語言文件加載完成,并生成標記語言集合體;
(5)學習裝置將學習模塊插入已加載的標記語言文件中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都安恒信息技術有限公司,未經成都安恒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410317562.9/2.html,轉載請聲明來源鉆瓜專利網。





