[發(fā)明專利]基于代表詞對的RESTful API文檔主題分布提取方法在審
| 申請?zhí)枺?/td> | 202110570270.6 | 申請日: | 2021-05-25 |
| 公開(公告)號: | CN113378558A | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 陸佳煒;鄭嘉弘;趙偉;王小定;朱昊天;徐俊;程振波 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/44;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務(wù)所有限公司 33241 | 代理人: | 王利強(qiáng) |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 代表 restful api 文檔 主題 分布 提取 方法 | ||
1.一種基于代表詞對的RESTful API文檔主題分布提取方法,其特征在于,所述方法包括以下步驟:
第一步:對文檔進(jìn)行分詞處理,并進(jìn)行停止詞去除與時(shí)態(tài)歸一化;
第二步:將分詞結(jié)果轉(zhuǎn)換為詞對集合;
第三步:在主題模型的迭代過程中計(jì)算代表詞對,并利用代表詞對實(shí)現(xiàn)概率采樣算法,完成主題模型訓(xùn)練,輸出RESTful API的文檔主題分布。
2.如權(quán)利要求1所述的基于代表詞對的RESTful API文檔主題分布提取方法,其特征在于,所述第一步的過程如下:
1.1讀取RESTful API文檔信息,以API名稱為鍵,文檔內(nèi)容為值,轉(zhuǎn)換為值鍵對D;
1.2遍歷D中文檔內(nèi)容,將當(dāng)前文檔內(nèi)容設(shè)置為d,設(shè)置空集合word_list,對d進(jìn)行分句處理并剔除標(biāo)點(diǎn)符號,之后對每句進(jìn)行分詞;
1.3遍歷過程中,對分詞后的每個(gè)單詞進(jìn)行判斷,如果該單詞不為特殊符號組成,不為純數(shù)字且不存在于停止詞列表中,則對該單詞進(jìn)行歸一化處理,存入步驟1.2中設(shè)置的word_list集合中,對每個(gè)單詞完成判斷后,使用word_list代替d作為值鍵對D中的值進(jìn)行存儲。
3.如權(quán)利要求2所述的基于代表詞對的RESTful API文檔主題分布提取方法,其特征在于,所述第二步的過程如下:
2.1對步驟1中獲取的分詞結(jié)果進(jìn)行遍歷,生成不重復(fù)的詞匯表Voc;
2.2定義詞對biterm結(jié)構(gòu),其中包含兩個(gè)不同單詞在Voc中的序號,且較小的序號設(shè)置為word1,較大的序號設(shè)置為word2;
2.3設(shè)置空集合whole_words作為所有分詞結(jié)果的存儲集合,遍歷值鍵對D,將每個(gè)鍵對應(yīng)的word_list集合按順序存入wole_words中;
2.4遍歷whole_words中所有單詞信息,將其轉(zhuǎn)換為詞匯表Voc中對應(yīng)的單詞序號;
2.5生成詞對集合B。
4.如權(quán)利要求3所述的基于代表詞對的RESTful API文檔主題分布提取方法,其特征在于,所述2.5的步驟如下:
2.5.1遍歷whole_words集合,將當(dāng)前對應(yīng)的文檔分詞的詞匯表序號結(jié)果集合設(shè)置為single_list;
2.5.2設(shè)置詞對集合B用來存放詞對信息;
2.5.3對single_list進(jìn)行遍歷,當(dāng)前對象為single_list(i),single_list(i)表示single_list中第i個(gè)單詞的詞匯表序號,其中0≤i<single_list.length,對每一個(gè)single_list(i),將其與single_list(j)對應(yīng)的第j個(gè)單詞的詞匯表序號進(jìn)行組合,生成詞對b,其中,ij<single_list.length;
2.5.4將生成的詞對存入詞對集合B,并按順序?yàn)槊總€(gè)詞對b設(shè)置一個(gè)詞對序號,記為b.index。
5.如權(quán)利要求1~4之一所述的基于代表詞對的RESTful API文檔主題分布提取方法,其特征在于,所述第三步的過程如下:
3.1設(shè)置一個(gè)大小為k*1的零矩陣nz,用來存放每個(gè)主題對應(yīng)的詞對數(shù),其中k為主題數(shù)量,設(shè)置一個(gè)大小為k*|Voc|的零矩陣nwz,用來存放每個(gè)詞匯被分入每個(gè)主題的次數(shù),其中|Voc|表示詞匯表中詞匯數(shù)量,零矩陣指矩陣元素全為0的矩陣;
3.2隨機(jī)對詞對賦予主題,初始化nz與nwz;
3.3設(shè)置迭代次數(shù)iteration,設(shè)置當(dāng)前迭代次數(shù)為iter;
3.4開始第一次迭代,遍歷詞對集合B,對每個(gè)詞對b進(jìn)行采樣操作;
3.5計(jì)算代表詞對矩陣S;
3.6繼續(xù)進(jìn)行迭代,將當(dāng)前迭代次數(shù)iter加1,遍歷詞對集合B,對每個(gè)詞對b進(jìn)行采樣操作;
3.7重復(fù)步驟3.5操作;
3.8判斷iter大小,當(dāng)其等于iteration時(shí),停止迭代;
3.9根據(jù)公式,計(jì)算文檔主題分布theta,公式如下:
P(z|d)表示文檔d對于主題z的概率,ndz表示該文檔中被分入主題z的單詞數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110570270.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 業(yè)務(wù)處理方法及裝置
- 一種基于RESTFUL服務(wù)的異構(gòu)系統(tǒng)融合原型
- 一種基于RESTFUL服務(wù)的異構(gòu)系統(tǒng)融合框架
- 一種基于RESTFUL服務(wù)的異構(gòu)系統(tǒng)融合感知原型
- 一種云計(jì)算平臺管理員權(quán)限最小化的自動(dòng)化劃分方法及訪問控制方法
- 一種基于RESTful API實(shí)現(xiàn)AWS API的方法及系統(tǒng)
- 一種SDK生成方法、裝置、設(shè)備及介質(zhì)
- 基于C++實(shí)現(xiàn)RESTFUL服務(wù)的方法及系統(tǒng)
- 一種用于Web接口自動(dòng)梳理和歸類的方法
- 接口錯(cuò)誤信息報(bào)告方法、系統(tǒng)、裝置和存儲介質(zhì)





