[發(fā)明專利]基于代表詞對的RESTful API文檔主題分布提取方法在審

申請?zhí)枺?/td>	202110570270.6	申請日：	2021-05-25
公開（公告）號：	CN113378558A	公開（公告）日：	2021-09-10
發(fā)明（設(shè)計(jì)）人：	陸佳煒;鄭嘉弘;趙偉;王小定;朱昊天;徐俊;程振波	申請（專利權(quán)）人：	浙江工業(yè)大學(xué)
主分類號：	G06F40/284	分類號：	G06F40/284;G06F40/44;G06K9/62
代理公司：	杭州斯可睿專利事務(wù)所有限公司 33241	代理人：	王利強(qiáng)
地址：	310014 浙江省***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于代表 restful api 文檔主題分布提取方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于代表詞對的RESTful API文檔主題分布提取方法，其特征在于，所述方法包括以下步驟：

第一步：對文檔進(jìn)行分詞處理，并進(jìn)行停止詞去除與時(shí)態(tài)歸一化；

第二步：將分詞結(jié)果轉(zhuǎn)換為詞對集合；

第三步：在主題模型的迭代過程中計(jì)算代表詞對，并利用代表詞對實(shí)現(xiàn)概率采樣算法，完成主題模型訓(xùn)練，輸出RESTful API的文檔主題分布。

2.如權(quán)利要求1所述的基于代表詞對的RESTful API文檔主題分布提取方法，其特征在于，所述第一步的過程如下：

1.1讀取RESTful API文檔信息，以API名稱為鍵，文檔內(nèi)容為值，轉(zhuǎn)換為值鍵對D；

1.2遍歷D中文檔內(nèi)容，將當(dāng)前文檔內(nèi)容設(shè)置為d，設(shè)置空集合word_list，對d進(jìn)行分句處理并剔除標(biāo)點(diǎn)符號，之后對每句進(jìn)行分詞；

1.3遍歷過程中，對分詞后的每個(gè)單詞進(jìn)行判斷，如果該單詞不為特殊符號組成，不為純數(shù)字且不存在于停止詞列表中，則對該單詞進(jìn)行歸一化處理，存入步驟1.2中設(shè)置的word_list集合中，對每個(gè)單詞完成判斷后，使用word_list代替d作為值鍵對D中的值進(jìn)行存儲。

3.如權(quán)利要求2所述的基于代表詞對的RESTful API文檔主題分布提取方法，其特征在于，所述第二步的過程如下：

2.1對步驟1中獲取的分詞結(jié)果進(jìn)行遍歷，生成不重復(fù)的詞匯表Voc；

2.2定義詞對biterm結(jié)構(gòu)，其中包含兩個(gè)不同單詞在Voc中的序號，且較小的序號設(shè)置為word1，較大的序號設(shè)置為word2；

2.3設(shè)置空集合whole_words作為所有分詞結(jié)果的存儲集合，遍歷值鍵對D，將每個(gè)鍵對應(yīng)的word_list集合按順序存入wole_words中；

2.4遍歷whole_words中所有單詞信息，將其轉(zhuǎn)換為詞匯表Voc中對應(yīng)的單詞序號；

2.5生成詞對集合B。

4.如權(quán)利要求3所述的基于代表詞對的RESTful API文檔主題分布提取方法，其特征在于，所述2.5的步驟如下：

2.5.1遍歷whole_words集合，將當(dāng)前對應(yīng)的文檔分詞的詞匯表序號結(jié)果集合設(shè)置為single_list；

2.5.2設(shè)置詞對集合B用來存放詞對信息；

2.5.3對single_list進(jìn)行遍歷，當(dāng)前對象為single_list(i)，single_list(i)表示single_list中第i個(gè)單詞的詞匯表序號，其中0≤i＜single_list.length，對每一個(gè)single_list(i)，將其與single_list(j)對應(yīng)的第j個(gè)單詞的詞匯表序號進(jìn)行組合，生成詞對b，其中，ij＜single_list.length；

2.5.4將生成的詞對存入詞對集合B，并按順序?yàn)槊總€(gè)詞對b設(shè)置一個(gè)詞對序號，記為b.index。

5.如權(quán)利要求1～4之一所述的基于代表詞對的RESTful API文檔主題分布提取方法，其特征在于，所述第三步的過程如下：

3.1設(shè)置一個(gè)大小為k*1的零矩陣nz，用來存放每個(gè)主題對應(yīng)的詞對數(shù)，其中k為主題數(shù)量，設(shè)置一個(gè)大小為k*|Voc|的零矩陣nwz，用來存放每個(gè)詞匯被分入每個(gè)主題的次數(shù)，其中|Voc|表示詞匯表中詞匯數(shù)量，零矩陣指矩陣元素全為0的矩陣；

3.2隨機(jī)對詞對賦予主題，初始化nz與nwz；

3.3設(shè)置迭代次數(shù)iteration，設(shè)置當(dāng)前迭代次數(shù)為iter；

3.4開始第一次迭代，遍歷詞對集合B，對每個(gè)詞對b進(jìn)行采樣操作；

3.5計(jì)算代表詞對矩陣S；

3.6繼續(xù)進(jìn)行迭代，將當(dāng)前迭代次數(shù)iter加1，遍歷詞對集合B，對每個(gè)詞對b進(jìn)行采樣操作；

3.7重復(fù)步驟3.5操作；

3.8判斷iter大小，當(dāng)其等于iteration時(shí)，停止迭代；

3.9根據(jù)公式，計(jì)算文檔主題分布theta，公式如下：

P(z|d)表示文檔d對于主題z的概率，nd_z表示該文檔中被分入主題z的單詞數(shù)量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué)，未經(jīng)浙江工業(yè)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110570270.6/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于物理仿真的骨組織修復(fù)虛擬現(xiàn)實(shí)解決方法
下一篇：一種智能移動(dòng)吸塵滅蚊機(jī)器人

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】