[發明專利]一種基于PLSA主題模型和EM算法確定網頁元素主題的方法有效
| 申請號: | 202010185732.8 | 申請日: | 2020-03-17 |
| 公開(公告)號: | CN111459806B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 楊龍祥;賈秀秀;劉玉珍 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F16/958 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王恒靜 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 plsa 主題 模型 em 算法 確定 網頁 元素 方法 | ||
1.一種基于PLSA主題模型和EM算法確定網頁元素主題的方法,其特征在于,該方法包括以下步驟:
(1)選取待測網頁的網頁元素對應的主題,找出主題關鍵詞集合和主題集合;
(2)對待測網頁的網頁元素進行預處理,生成元素-詞的關系;
(3)根據獲取到的所述主題集合,按照PLSA模型公式訓練出主題-詞矩陣以及網頁元素-主題矩陣,
(4)采用改進的EM算法求解出網頁元素中對應概率最大的主題,作為該網頁元素的主題;
(5)當網頁結構或元素屬性改變而造成網頁狀態變化后,重新獲取當前DOM,重新對當前網頁內的網頁元素的主題進行判定,并生成網頁元素XPath定位器;
所述步驟(2),具體包括:
(21)從待測網頁的網頁元素與主題相關聯的屬性值中篩選主題關鍵詞集合中的關鍵詞以及網頁元素的主題關鍵詞,該主題下的所有網頁元素樣本關鍵詞組成的集合就是主題關鍵詞集合;
(22)計算各個主題關鍵詞的頻率,具體為:待測網頁的網頁元素e中主題關鍵詞w出現的頻率表示為:
其中,nw代表網頁元素e中關鍵詞w出現的次數,ne代表網頁元素e中全部關鍵詞的出現次數;
所述步驟(3)具體包括:
(31)根據得到的主題關鍵詞集合W,網頁元素集合E,主題集合T,根據PLSA模型公式訓練出主題-詞P(wj|tk)和網頁元素-主題P(tk|ei);
(32)計算網頁元素中的生成概率,如下式所示:
其中,P(ei)為待測網頁中某網頁元素ei的概率,P(wj|tk)為主題關鍵詞wj在給定的主題tk中出現的概率,P(tk|ei)為主題tk在給定的網頁元素ei中出現的概率;n為待測網頁中主題的總數,P(tk|ei)和P(wj|tk)是未知量,故θ=(P(wj|tk),P(tk|ei))就是需要估計的參數值,并且使得最大化θ值;
所述改進的EM算法包括:
(41)計算Q函數:
其中,觀測數據集合Ym=(w0i,w1i),若yi來自額外的0,記w0i=1,否則w0i=0;同樣的yi若來自額外1,記w1i=1,否則w1i=0,這樣就給出完全數據集,其中Y0=(yi,Xi,Zi)為觀測數據,X和Z是協變量集合;β和γ0,γ1是回歸系數,記表示在第t步迭代中參數θ估計的當前值;表示期望值的計算是在條件分布下算出的;分別表示數據中參數0、1和2所占總體數據的比例;
而且有:
(42)將觀測數據集分為子集Y01,Y02,劃分的規則:把每個觀測隨機的分到兩個子集Y01,Y02的兩者的任意一個中去;
(43)接下來在兩個樣本集Y01,Y02將Q函數極大化,利用條件極大化的辦法實現;利用迭代方程得到:
具體的如下:
令則
同樣的
重復(42)和(43)步,直到算法收斂得到全局最優解;
所述步驟(4)中,采用改進的EM算法求解出網頁元素中對應概率最大的主題,具體包括:
(44)對θ進行迭代進行極大似然估計,如下式所示:
其中,n為迭代θ的次數,L為網頁元素樣本集的詞分布的對數似然函數;
(45)主題-詞P(wj|tk)的概率和等于1,網頁元素-主題P(tk|ei)的概率和等于1:
(46)由于關鍵詞之間相互獨立,所以網頁元素的詞分布如下式所示:
故網頁元素樣本集的詞分布的對數似然函數,如下式所示:
其中,n(ei)代表網頁元素e中全部關鍵詞的出現次數,其有取值范圍,每次取的值不同,會有一個編號來表示,M、N、K就是取值的最大值,n(ei)就是從1取到這個最大值,n(wj,ei)表示詞wj在網頁元素ei中出現的次數、P(ei,wj)是詞wj在網頁元素ei中的詞頻率;
(47)接下來將網頁元素樣本集的詞分布對數似然函數l(θ)代入式(7)中,通過條件極大化的方法對L(θ)函數極大化,得到在第k步迭代中參數θ隨機部的估計當前值,也即是參數θ隨機部的全局最優解;
(48)計算此時t的后驗概率,利用貝葉斯公式,得到如下:
(49)將計算得到的t代入式(8),求解相應的P(wj|tk)和P(tk|ei)
由于n(ei)∝P(ei),簡化公式(17),由于式(15)得到參數θ隨機部的全局最優解,接下來的計算max l(θ)就轉化為一個優化問題;
對應的目標函數為:
約束條件為:
(410)采用拉格朗日乘數法,估算得到P(wj|tk)和P(tk|ei);
(411)把P(wj|tk)和P(tk|ei)再代入公式(16),循環迭代得到隱變量主題t的后驗概率P(tk|ei,wj)
其中,P(tk|ei)代表網頁元素的主題分布,進而把網頁元素ei對應概率最大的主題tk作為該網頁元素的主題。
2.根據權利要求1所述的基于PLSA主題模型和EM算法確定網頁元素主題的方法,其特征在于,所述步驟(1)中,找出主題關鍵詞集合和主題集合包括:
使用網絡爬蟲技術模擬瀏覽器獲取待測網頁的源代碼,再進行解析HTML代碼,得到網頁元素的主題關鍵詞和主題集合,分別為主題集合:T={主題t1,主題t2…,主題tn},主題關鍵詞:主題t1:{關鍵詞k11,關鍵詞k12…,關鍵詞k1p},主題t2:{關鍵詞k21,關鍵詞k22…,關鍵詞k2q},…,主題tn:{關鍵詞kn1,關鍵詞kn2…,關鍵詞knm},其中,n為待測網頁中主題的總數,p為主題t1下的主題關鍵詞的總數,q為主題t2下的主題關鍵詞的總數,m為主題tn下的主題關鍵詞的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010185732.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無人機實時軌跡預測方法
- 下一篇:一種審計信息管控平臺





