[發(fā)明專利]一種基于WTP-WCD算法的API推薦方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011078740.9 | 申請(qǐng)日: | 2020-10-10 |
| 公開(kāi)(公告)號(hào): | CN112214511A | 公開(kāi)(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計(jì))人: | 文萬(wàn)志;王仕強(qiáng);陳志強(qiáng);陸曉紅;鄭大順;謝忠壤;張斌 | 申請(qǐng)(專利權(quán))人: | 南通大學(xué) |
| 主分類號(hào): | G06F16/245 | 分類號(hào): | G06F16/245;G06F8/20;G06F40/216 |
| 代理公司: | 北京科家知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11427 | 代理人: | 徐思波 |
| 地址: | 226019 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 wtp wcd 算法 api 推薦 方法 | ||
1.一種基于WTP-WCD算法的API推薦方法,其特征在于,包括如下步驟:
步驟1)、收集API數(shù)據(jù)集;
步驟2)、對(duì)數(shù)據(jù)集預(yù)處理;
步驟3)、建立模型,將數(shù)據(jù)進(jìn)行向量化處理;
步驟4)、對(duì)生成的詞向量進(jìn)行加權(quán)處理;
步驟5)、對(duì)需要查詢的問(wèn)題內(nèi)容同樣進(jìn)行步驟二、三、四處理操作;
步驟6)、進(jìn)行相似度計(jì)算。
2.根據(jù)權(quán)利要求1所述的基于WTP-WCD算法的API推薦方法,其特征在于,步驟1)的具體步驟如下:
(1-1)收集API數(shù)據(jù)集來(lái)構(gòu)造數(shù)據(jù)庫(kù):爬蟲(chóng)調(diào)用requests庫(kù)來(lái)獲取API信息文檔的url,然后通過(guò)BeautifulSoup庫(kù)來(lái)解析url所在的網(wǎng)站,最后利用正則表達(dá)式來(lái)獲取標(biāo)簽爬取API的對(duì)象、API函數(shù)方法以及API注釋,然后將爬取的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)中;
(1-2)提取問(wèn)答網(wǎng)站中Java項(xiàng)目的API推薦信息,提取的QA對(duì)中要包含Java標(biāo)簽,對(duì)提取后的問(wèn)題進(jìn)行篩選,首先問(wèn)題的答案要包含API實(shí)體,保證數(shù)據(jù)的有效性,然后給問(wèn)題本身的評(píng)分設(shè)定一個(gè)閾值,低于這個(gè)閾值的數(shù)據(jù)就剔除,并且它的答案的分?jǐn)?shù)應(yīng)為正,最后將提取的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。
3.根據(jù)權(quán)利要求1所述的基于WTP-WCD算法的API推薦方法,其特征在于,步驟2)的具體步驟如下:
(2-1)首先語(yǔ)句之間要進(jìn)行分句,用標(biāo)點(diǎn)符號(hào)進(jìn)行分離,使用nltk包中的sent_tokenize方法進(jìn)行分句;
(2-2)分詞中刪除標(biāo)點(diǎn)符號(hào)時(shí)使用punctuation方法先找出所有的標(biāo)點(diǎn)符號(hào),然后使用replace方法用空格代替標(biāo)點(diǎn)符號(hào),并以空格切分字符串,形成單個(gè)單詞,最后將所有的單詞轉(zhuǎn)化為小寫(xiě);
(2-3)刪除頻率小于10的低頻詞和停用詞;
(2-4)將縮寫(xiě)形式的單詞改寫(xiě)成完整形式;
(2-5)對(duì)單詞列表進(jìn)行詞性標(biāo)記,使用nltk包中pos_tag()方法進(jìn)行標(biāo)記,并返回標(biāo)記列表;
(2-6)最后使用snowballstemner()方法,還原在時(shí)態(tài)下和被動(dòng)語(yǔ)態(tài)中出現(xiàn)的的‘ed’和‘ing’,恢復(fù)復(fù)數(shù)和第三人稱單數(shù)的‘s’和‘es’,減少重復(fù),并提取相似的詞干。
4.根據(jù)權(quán)利要求1所述的基于WTP-WCD算法的API推薦方法,其特征在于,步驟3)中建立的模型模型結(jié)構(gòu)分為三層:輸入層、隱層和softmax層,其中,輸入層輸入的是onehot向量,在輸入層和隱層之間有一個(gè)權(quán)重矩陣w,將隱層設(shè)置為300維特征,權(quán)重矩陣w和onehot向量進(jìn)行相乘會(huì)得到一個(gè)300維特征向量,再通過(guò)wx+b函數(shù),之后softmax,得到概率輸出;
模型訓(xùn)練時(shí)設(shè)置參數(shù)如下:embedding_size:100,skip_window:5,num_skips:2,num_steps:100000,num_sampled:64,vocab_size:50000,learning_rate:0.0001,epoch:100,batch_size:100。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南通大學(xué),未經(jīng)南通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011078740.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種在無(wú)線局域網(wǎng)獲得接入控制器信息的方法和裝置
- 會(huì)聚式WLAN中由AC完成WPI時(shí)的STA切換方法及其系統(tǒng)
- 隧道建立方法、設(shè)備及網(wǎng)絡(luò)系統(tǒng)
- 無(wú)線局域網(wǎng)中的轉(zhuǎn)發(fā)方法和裝置
- 隧道建立方法、裝置及系統(tǒng)
- 隧道處理方法、裝置及系統(tǒng)
- 一種無(wú)線終端站點(diǎn)及其控制方法、系統(tǒng)及無(wú)線控制點(diǎn)
- 網(wǎng)格網(wǎng)絡(luò)的傳輸方法及無(wú)線終端點(diǎn)
- 網(wǎng)絡(luò)準(zhǔn)入的控制方法及裝置
- 一種管理無(wú)線終端站點(diǎn)的方法和裝置
- 使用具有唯一識(shí)別信息的便攜式無(wú)線通信設(shè)備進(jìn)行無(wú)線電子商務(wù)的方法和系統(tǒng)
- 無(wú)線通信設(shè)備中執(zhí)行空閑模式切換
- 基于移動(dòng)單元速度對(duì)頻率和時(shí)間跟蹤環(huán)路中的頻偏和定時(shí)偏移的補(bǔ)償
- 基于無(wú)線網(wǎng)絡(luò)質(zhì)量的注冊(cè)定時(shí)器調(diào)整
- 用于定位無(wú)線電的連接點(diǎn)觸發(fā)式掃描
- 在無(wú)線通信系統(tǒng)中經(jīng)由毫微微接入點(diǎn)進(jìn)行通信
- 無(wú)線通信設(shè)備及在設(shè)備間形成對(duì)等(P2P)無(wú)線連接的方法
- 穿戴式計(jì)算裝置
- 無(wú)線通信裝置(WCD)轉(zhuǎn)發(fā)它自己的WCD上下文以用于移交
- 一種安全修改WCD治療參數(shù)的方法及裝置





