[發(fā)明專(zhuān)利]一種基于PLSA主題模型和EM算法確定網(wǎng)頁(yè)元素主題的方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010185732.8 | 申請(qǐng)日: | 2020-03-17 |
| 公開(kāi)(公告)號(hào): | CN111459806B | 公開(kāi)(公告)日: | 2022-09-23 |
| 發(fā)明(設(shè)計(jì))人: | 楊龍祥;賈秀秀;劉玉珍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F11/36 | 分類(lèi)號(hào): | G06F11/36;G06F16/958 |
| 代理公司: | 南京蘇高專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 王恒靜 |
| 地址: | 210003 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 plsa 主題 模型 em 算法 確定 網(wǎng)頁(yè) 元素 方法 | ||
本發(fā)明公開(kāi)了一種基于PLSA主題模型和EM算法確定網(wǎng)頁(yè)元素主題的方法,該方法包括:(1)選取待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)元素對(duì)應(yīng)的主題,找出主題關(guān)鍵詞集合和主題集合;(2)對(duì)待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)元素進(jìn)行預(yù)處理;(3)根據(jù)獲取到的所述主題集合,按照PLSA模型公式訓(xùn)練出主題?詞矩陣以及網(wǎng)頁(yè)元素?主題矩陣,(4)采用改進(jìn)的EM算法求解出網(wǎng)頁(yè)元素中對(duì)應(yīng)概率最大的主題,作為該網(wǎng)頁(yè)元素的主題;(5)當(dāng)網(wǎng)頁(yè)結(jié)構(gòu)或元素屬性改變而造成網(wǎng)頁(yè)狀態(tài)變化后,重新獲取當(dāng)前DOM,重新對(duì)當(dāng)前網(wǎng)頁(yè)內(nèi)的網(wǎng)頁(yè)元素的主題進(jìn)行判定,并生成網(wǎng)頁(yè)元素XPath定位器。本發(fā)明根據(jù)改進(jìn)EM算法判定出網(wǎng)頁(yè)元素的主題,自動(dòng)生成對(duì)應(yīng)的XPath絕對(duì)路徑,提高了網(wǎng)頁(yè)元素定位器在自動(dòng)化測(cè)試中的魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及Web自動(dòng)化測(cè)試中一種網(wǎng)頁(yè)元素定位技術(shù)領(lǐng)域,具體涉及一種基于PLSA主題模型和EM算法確定網(wǎng)頁(yè)元素主題的方法。
背景技術(shù)
Web開(kāi)發(fā)階段中,為了保證Web應(yīng)用的質(zhì)量,測(cè)試的手段和方法越來(lái)越多。目前很多自動(dòng)化測(cè)試框架和工具在一定程度上實(shí)現(xiàn)了自動(dòng)化,同時(shí)在一定程度上提高了整個(gè)軟件的測(cè)試開(kāi)發(fā)效率,但是在此期間也出現(xiàn)了很多亟需解決的問(wèn)題。
基于用戶頁(yè)面自動(dòng)化測(cè)試中,對(duì)于質(zhì)量良好的Web測(cè)試腳本,目前還不能用自動(dòng)化測(cè)試工具完全自動(dòng)化生成腳本。在生成測(cè)試腳本的過(guò)程中,需要進(jìn)行Web網(wǎng)頁(yè)元素定位,但目前這些自動(dòng)化測(cè)試腳本中很多存在著頁(yè)面元素定位失效的問(wèn)題。
發(fā)明內(nèi)容
發(fā)明目的:為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于PLSA主題模型和EM算法確定網(wǎng)頁(yè)元素主題的方法,對(duì)于網(wǎng)頁(yè)動(dòng)態(tài)頁(yè)面采用JavaScript、Ajax等技術(shù)完成Web頁(yè)面的局部刷新,當(dāng)使用者觸發(fā)頁(yè)面中的事件后,將調(diào)取此事件綁定的JavaScript代碼,接著瀏覽器解析的DOM結(jié)構(gòu)和內(nèi)容將動(dòng)態(tài)修改,這造成動(dòng)態(tài)頁(yè)面元素定位器失效,本方法用于解決該技術(shù)問(wèn)題。
技術(shù)方案:本發(fā)明提供一種基于PLSA主題模型和EM算法確定網(wǎng)頁(yè)元素主題的方法,該方法包括:
(1)選取待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)元素對(duì)應(yīng)的主題,找出主題關(guān)鍵詞集合和主題集合;
(2)對(duì)待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)元素進(jìn)行預(yù)處理,生成元素-詞的關(guān)系;
(3)根據(jù)獲取到的所述主題集合,按照PLSA模型公式訓(xùn)練出主題-詞矩陣以及網(wǎng)頁(yè)元素-主題矩陣,
(4)采用改進(jìn)的EM算法求解出網(wǎng)頁(yè)元素中對(duì)應(yīng)概率最大的主題,作為該網(wǎng)頁(yè)元素的主題;
(5)當(dāng)網(wǎng)頁(yè)結(jié)構(gòu)或元素屬性改變而造成網(wǎng)頁(yè)狀態(tài)變化后,重新獲取當(dāng)前DOM,重新對(duì)當(dāng)前網(wǎng)頁(yè)內(nèi)的網(wǎng)頁(yè)元素的主題進(jìn)行判定,并生成網(wǎng)頁(yè)元素XPath定位器。
進(jìn)一步地,包括:
所述步驟(1)中,找出主題關(guān)鍵詞集合和主題集合包括:
使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)模擬瀏覽器獲取待測(cè)網(wǎng)頁(yè)的源代碼,再進(jìn)行解析HTML代碼,得到網(wǎng)頁(yè)元素的主題關(guān)鍵詞和主題集合,分別為主題集合:T={主題t1,主題t2…,主題tn},主題關(guān)鍵詞:主題t1:{關(guān)鍵詞k11,關(guān)鍵詞k12…,關(guān)鍵詞k1p},主題t2:{關(guān)鍵詞k21,關(guān)鍵詞k22…,關(guān)鍵詞k2q},…,主題tn:{關(guān)鍵詞kn1,關(guān)鍵詞kn2…,關(guān)鍵詞knm},其中,n為待測(cè)網(wǎng)頁(yè)中主題的總數(shù),p為主題t1下的主題關(guān)鍵詞的總數(shù),q為主題t2下的主題關(guān)鍵詞的總數(shù),m為主題tn下的主題關(guān)鍵詞的總數(shù)。
進(jìn)一步地,包括:
所述步驟(2),具體包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010185732.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過(guò)測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過(guò)處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過(guò)軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 一種基于概率潛語(yǔ)義分析模型的面向?qū)ο笥跋窬垲?lèi)方法
- 一種基于Hadoop的并行化PLSA方法
- 一種實(shí)現(xiàn)網(wǎng)站導(dǎo)航的方法和裝置
- 基于PLSA算法判斷文檔相關(guān)性的方法及裝置
- 混合生成式和判別式學(xué)習(xí)模型的圖像語(yǔ)義標(biāo)注方法
- 一種結(jié)合PLSA和AT的音頻事件分類(lèi)方法
- 一種實(shí)現(xiàn)網(wǎng)站導(dǎo)航的方法和裝置
- 一種基于MPI計(jì)算框架的并行PLSA方法
- 一種基于PLSA和BOW的高分遙感影像港口檢測(cè)方法
- 一種基于capsule理論和PLSA路由的醫(yī)學(xué)影像分類(lèi)方法





