[發(fā)明專(zhuān)利]一種融合詞向量擴(kuò)充和主題模型的服務(wù)分布式聚類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110434605.1 | 申請(qǐng)日: | 2021-04-22 |
| 公開(kāi)(公告)號(hào): | CN113139599B | 公開(kāi)(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計(jì))人: | 楊冬菊;何丹 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北方工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F18/23213;G06F40/284;G06F40/30 |
| 代理公司: | 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100041 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 向量 擴(kuò)充 主題 模型 服務(wù) 分布式 方法 | ||
本發(fā)明提供一種融合詞向量擴(kuò)充和主題模型的服務(wù)分布式聚類(lèi)方法,包括:步驟1,提取服務(wù)描述文本中的服務(wù)特征詞;步驟2,獲取所述服務(wù)特征詞的詞向量,生成服務(wù)描述庫(kù);步驟3,根據(jù)服務(wù)特征詞的詞向量基于主題模型獲取服務(wù)文檔?主題矩陣;步驟4,基于所述文檔?主題矩陣進(jìn)行服務(wù)的分布式聚類(lèi),并對(duì)服務(wù)類(lèi)簇進(jìn)行語(yǔ)義建模。本發(fā)明通過(guò)詞向量的擴(kuò)充和BTM的應(yīng)用,使得服務(wù)描述擁有語(yǔ)義特性,緩解了服務(wù)描述短文本特征稀疏的問(wèn)題;本發(fā)明將k?means算法與canopy算法相融合,降低了算法迭代次數(shù);采用基于內(nèi)存的Spark框架,避免大量磁盤(pán)I/O,提升了服務(wù)聚類(lèi)效率;基于特征提取的服務(wù)類(lèi)簇的語(yǔ)義建模方法,為優(yōu)化服務(wù)組織和管理提供支撐。
技術(shù)領(lǐng)域
本發(fā)明涉及服務(wù)計(jì)算領(lǐng)域,具體涉及服務(wù)組織管理,更具體涉及一種融合詞向量擴(kuò)充和主題模型的服務(wù)分布式聚類(lèi)方法。
背景技術(shù)
軟件行業(yè)中,傳統(tǒng)的軟件架構(gòu)為單體架構(gòu),隨著各種計(jì)算機(jī)技術(shù)在軟件行業(yè)的迅速發(fā)展,單體模式越來(lái)越難以滿足軟件復(fù)用和資源集成等方面的復(fù)雜需求,在此背景下,服務(wù)計(jì)算得以迅速發(fā)展。
服務(wù)是一種低耦合、模塊化、自描述、封裝良好的分布式計(jì)算模型。服務(wù)最初是由Ariba、IBM和Microsoft等公司共同提出的,旨在為Internet上跨越不同地域、不同行業(yè)的應(yīng)用提供更強(qiáng)大的互操作能力。服務(wù)提供者發(fā)布服務(wù)到互聯(lián)網(wǎng)上后,服務(wù)消費(fèi)者找到自己期望的服務(wù)進(jìn)行綁定即可使用。服務(wù)消費(fèi)者無(wú)需了解服務(wù)內(nèi)部的實(shí)現(xiàn)邏輯、編程語(yǔ)言、操作系統(tǒng),也即服務(wù)具有平臺(tái)獨(dú)立的特性。這意味著,用戶不需要自己實(shí)現(xiàn)該模塊的軟件研發(fā),直接調(diào)用該服務(wù)即可得到期望的執(zhí)行結(jié)果,從而實(shí)現(xiàn)了軟件復(fù)用,大大降低了研發(fā)成本。對(duì)于復(fù)雜的需求,用戶可以通過(guò)服務(wù)組合,即調(diào)用多個(gè)不同服務(wù)來(lái)滿足需求。
各領(lǐng)域的可用服務(wù)越來(lái)越多,海量服務(wù)之間的互聯(lián)互通形成了服務(wù)互聯(lián)網(wǎng)。在此背景下,服務(wù)計(jì)算也面臨新的問(wèn)題與挑戰(zhàn):服務(wù)數(shù)量呈指數(shù)級(jí)增長(zhǎng),造成信息過(guò)載,使得服務(wù)的組織管理和檢索存在較大壓力,海量的服務(wù)已經(jīng)超過(guò)人工能接受與處理的有效范圍。如果不對(duì)服務(wù)進(jìn)行組織,服務(wù)消費(fèi)者查找服務(wù)時(shí)只能進(jìn)行全局搜索,空間和時(shí)間成本都很高。
研究人員將機(jī)器學(xué)習(xí)、知識(shí)圖譜、本體等方面的技術(shù)研究,應(yīng)用在服務(wù)組織和管理領(lǐng)域。服務(wù)組織管理技術(shù)包括服務(wù)社區(qū)、服務(wù)本體建模、服務(wù)分類(lèi)、服務(wù)知識(shí)圖譜、服務(wù)組合、服務(wù)網(wǎng)絡(luò)、服務(wù)聚類(lèi)等。其中,服務(wù)聚類(lèi)是一種有效的服務(wù)組織管理方式。聚類(lèi)是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,服務(wù)聚類(lèi)通常根據(jù)服務(wù)的功能屬性進(jìn)行聚類(lèi)。服務(wù)描述文本富含服務(wù)的功能屬性,因而常常被應(yīng)用于服務(wù)聚類(lèi)中。
服務(wù)聚類(lèi)可以分為基于向量空間模型(Vector?Space?Model,VSM)的服務(wù)聚類(lèi)方法,以及基于主題模型的服務(wù)聚類(lèi)方法。
基于向量空間模型的服務(wù)聚類(lèi)方法,從服務(wù)描述文本中提取服務(wù)特征詞,對(duì)其構(gòu)造向量空間,以達(dá)到文本計(jì)算轉(zhuǎn)化為向量運(yùn)算的目的。該方法假定服務(wù)特征詞匯相互獨(dú)立,缺乏考慮服務(wù)文本的語(yǔ)義影響。
與向量空間模型相比,基于主題模型的服務(wù)聚類(lèi)方法能夠依據(jù)“詞共現(xiàn)”數(shù)據(jù),揭示服務(wù)描述文本的潛在主題信息,挖掘服務(wù)與服務(wù)之間的潛在特征。然而,服務(wù)描述文本通常為短文本,特征稀疏,特征提取存在一定困擾。主題模型往往難以在特征稀疏的服務(wù)描述文本中表現(xiàn)良好的能力。
服務(wù)數(shù)量的急速增長(zhǎng),以及服務(wù)庫(kù)“去中心化”的分布式存儲(chǔ)方式給服務(wù)聚類(lèi)帶來(lái)壓力。服務(wù)聚類(lèi)算法大多需要頻繁迭代,單機(jī)難以應(yīng)對(duì)日益增長(zhǎng)的服務(wù)總量。服務(wù)聚類(lèi)面臨著服務(wù)數(shù)據(jù)集維度大、服務(wù)聚類(lèi)結(jié)果集大的現(xiàn)象。“單機(jī)瓶頸”問(wèn)題致使服務(wù)存儲(chǔ)能力受限,且服務(wù)聚類(lèi)參數(shù)訓(xùn)練效率低下。
發(fā)明內(nèi)容
為解決上述現(xiàn)有技術(shù)中存在的問(wèn)題,提供一種融合詞向量擴(kuò)充和主題模型的服務(wù)分布式聚類(lèi)方法,包括:
步驟1,提取服務(wù)描述文本中的服務(wù)特征詞;
步驟2,獲取所述服務(wù)特征詞的詞向量,生成服務(wù)描述庫(kù);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北方工業(yè)大學(xué),未經(jīng)北方工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110434605.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類(lèi)別向量的方法和裝置





