[發(fā)明專利]一種基于概率潛在語義分析模型的萬維網(wǎng)服務(wù)發(fā)現(xiàn)方法無效
| 申請?zhí)枺?/td> | 201110112383.8 | 申請日: | 2011-04-29 |
| 公開(公告)號: | CN102129479A | 公開(公告)日: | 2011-07-20 |
| 發(fā)明(設(shè)計)人: | 張衛(wèi)豐;韓蕊;周國強;張迎周;許碧歡;陸柳敏 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 葉連生 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 概率 潛在 語義 分析 模型 萬維網(wǎng) 服務(wù) 發(fā)現(xiàn) 方法 | ||
1.一種基于概率潛在語義分析模型的萬維網(wǎng)服務(wù)發(fā)現(xiàn)方法,其特征在于將常規(guī)的語法分析和語義聚類相結(jié)合,語法分析指的是Web服務(wù)矩陣的構(gòu)建和應(yīng)用基于譜聚類的算法對數(shù)據(jù)集中的與請求無關(guān)的服務(wù)進(jìn)行濾除,而語義聚類指的是在Web服務(wù)統(tǒng)一描述發(fā)現(xiàn)和集成(UDDI)以及Web服務(wù)描述(WSDL)的基礎(chǔ)上,應(yīng)用概率潛在語義分析模型對Web文檔進(jìn)行建模分析,將數(shù)據(jù)集進(jìn)一步聚類為語義相關(guān)簇,在這一階段,概率潛在語義分析模型的重要作用在于抓住隱藏在用戶請求和Web服務(wù)描述背后的語義概念,使得Web服務(wù)的匹配在先進(jìn)的概念層次進(jìn)行,
WSDL文檔是Web服務(wù)描述的主要機制,包含了對服務(wù)中抽象接口的定義和對網(wǎng)絡(luò)中具體執(zhí)行的描述,通過從中提取信息內(nèi)容并且進(jìn)行適當(dāng)?shù)臄?shù)據(jù)處理得到Web文本內(nèi)容,具體實現(xiàn)步驟為:
步驟1)采集WSDL文檔,對這些文檔進(jìn)行解析,得到各部分元素名稱及其文字內(nèi)容;
步驟2)對步驟1的結(jié)果進(jìn)行單詞原型處理和去除停止單詞;
對經(jīng)過數(shù)據(jù)處理的Web文本數(shù)據(jù)集進(jìn)一步考慮文本間的關(guān)系并且構(gòu)建服務(wù)矩陣,服務(wù)矩陣的構(gòu)建主要是建立在向量空間模型和詞頻-逆向文檔頻率權(quán)重算法的基礎(chǔ)上,通過向量空間模型,將數(shù)據(jù)集中的每個服務(wù)表示為一個向量形式,向量的每一維表示一個詞項,其權(quán)重根據(jù)詞頻-逆向文檔頻率權(quán)重算法得到,向量的維度也就相當(dāng)于詞匯表中的詞匯數(shù),即出現(xiàn)在整個文檔集中所有不同詞匯的總數(shù),因此整個Web服務(wù)數(shù)據(jù)集就表示為一個服務(wù)矩陣,具體實現(xiàn)步驟為:
步驟21)跟向量空間模型將數(shù)據(jù)集中的每一個服務(wù)表示為一個向量,用詞頻-逆向文檔頻率加權(quán)計算向量中每個詞項的權(quán)重;
步驟22)在步驟1的基礎(chǔ)上得到整個數(shù)據(jù)集的服務(wù)文本矩陣;
在進(jìn)行基于概率潛在語義分析的語義聚類之前,通過基于譜聚類的算法對數(shù)據(jù)集進(jìn)行與請求無關(guān)服務(wù)的濾除,具體實現(xiàn)步驟為:
步驟31)通過譜聚類將服務(wù)文本聚為k個簇,并且得到每個簇的聚類中心;
步驟32)預(yù)先設(shè)定一個門限值,計算每簇中數(shù)據(jù)點和相應(yīng)聚類中心的距離,如果大于門限值,則認(rèn)為此數(shù)據(jù)代表的對象為請求無關(guān)服務(wù),從服務(wù)集中刪除;
最后對經(jīng)過上述步驟得到的數(shù)據(jù)集應(yīng)用概率潛在語義分析模型將服務(wù)進(jìn)一步聚類成為一定數(shù)量的語義相關(guān)簇,這一步的重要作用是集中于抓住隱藏在請求服務(wù)和服務(wù)描述背后的語義概念,最后在同一語義相關(guān)簇的范圍內(nèi)計算請求q和其中服務(wù)的語義相似度,具體實現(xiàn)步驟為:
步驟41)對于數(shù)據(jù)集中的每一個服務(wù)d,根據(jù)概率潛在語義模型得到得出這個服務(wù)對于每個潛在變量zf的概率分布;
步驟42)找到這個服務(wù)對應(yīng)的潛在變量的概率分布的最大值,將其聚類到這個潛在變量對應(yīng)的語義相關(guān)簇中;
步驟43)循環(huán)步驟41)和步驟42),直到將整個數(shù)據(jù)集中的服務(wù)聚類為k個語義相關(guān)簇;
步驟44)最后根據(jù)公式計算請求q和與其同一語義相關(guān)簇中的服務(wù)的語義相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110112383.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





