[發明專利]基于代表詞對的RESTful API文檔主題分布提取方法在審
| 申請號: | 202110570270.6 | 申請日: | 2021-05-25 |
| 公開(公告)號: | CN113378558A | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 陸佳煒;鄭嘉弘;趙偉;王小定;朱昊天;徐俊;程振波 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/44;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 代表 restful api 文檔 主題 分布 提取 方法 | ||
一種基于代表詞對的RESTful API文檔主題分布提取方法,所述方法包括以下步驟:第一步:對文檔進行分詞處理,并進行停止詞去除與時態歸一化;第二步:將分詞結果轉換為詞對集合;第三步:在主題模型的迭代過程中計算代表詞對,并利用代表詞對實現概率采樣算法,完成主題模型訓練,輸出RESTful API的文檔主題分布。本發明提出一種基于代表詞對的RESTful API文檔主題分布提取方法,該方法設計了一種以BTM主題模型為基礎的詞對模型,通過一種基于主題分布信息的概率采樣策略,來尋找訓練過程中對當前采樣主題關聯度高的代表詞對,并通過調節詞對在采樣過程中的權重信息,降低噪聲問題帶來的干擾。
技術領域
本發明涉及一種基于代表詞對的RESTful API文檔主題分布提取方法。
背景技術
REST全稱為表示性狀態轉移(Representation State Transfer),是一種軟件架構風格,其思想可概括為利用URI對資源進行表示,并使用HTTP方法表示對這些資源的操作。而RESTful API即為REST風格的API,只要前端發送包含對應資源URI的請求,并利用HTTP方法(POST,GET,PUT,DELETE)實現對資源不同操作的跳轉,服務端就只需要定義一個統一的響應接口,不必對請求進行各式的解析。RESTful API往往返回JSON或XML形式的數據,并帶有由自然語言構成的描述文檔。因其輕量,結構簡單并直接面向資源的特點,逐漸成為目前互聯網上主流的API服務形式。研究者往往以其描述文檔為基礎進行對應API特征的計算。
主題模型能通過迭代采樣,自動地獲取語料集的隱式主題分布,充分利用文檔的隱含語義信息,將主題模型訓練得到的文檔主題分布作為REST API特征信息是一種常用的手段。然而,API描述文檔具備短文本特征。短文本為較短的、包含少許單詞的文本,只能獲取少量的詞共現信息,有著語義上的稀疏性。在短文本的處理上,由于稀疏性的問題,尋常的主題模型不能發揮良好的效果。另一方面,描述文檔面臨著噪聲干擾問題,即文本中包含一些與功能主題不相關聯的單詞,這些單詞在主題的判定上可能會起到負作用,被稱為噪聲詞。解決以上兩種問題,才能從描述文檔中提取有效且合理的文檔主題分布。
BTM(Biterm Topic Model)詞對主題模型在2013年被提出,該模型將語料分詞后單詞集合兩兩結合轉換為詞對集合,并利用詞對集合進行采樣,訓練得到對應的主題分布。該模型將原始語料轉換為詞對模型,增加了語義共現信息,緩解了短文本的稀疏性問題。
發明內容
為解決現有RESTful API文檔稀疏性與噪聲問題帶來的文檔主題分布提取的困難與不足,本發明提出一種基于代表詞對的RESTful API文檔主題分布提取方法,該方法設計了一種以BTM主題模型為基礎的詞對模型,通過一種基于主題分布信息的概率采樣策略,來尋找訓練過程中對當前采樣主題關聯度高的代表詞對,并通過調節詞對在采樣過程中的權重信息,降低噪聲問題帶來的干擾。
本發明采用如下的技術方案:
一種基于代表詞對的RESTful API文檔主題分布提取方法,所述方法包括以下步驟:
第一步:對文檔進行分詞處理,并進行停止詞去除與時態歸一化;
第二步:將分詞結果轉換為詞對集合;
第三步:在主題模型的迭代過程中計算代表詞對,并利用代表詞對實現概率采樣算法,完成主題模型訓練,輸出RESTful API的文檔主題分布。
進一步,所述第一步的過程如下:
1.1讀取RESTful API文檔信息,以API名稱為鍵,文檔內容為值,轉換為值鍵對D;
1.2遍歷D中文檔內容,將當前文檔內容設置為d,設置空集合word_list。對d進行分句處理并剔除標點符號,之后對每句進行分詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110570270.6/2.html,轉載請聲明來源鉆瓜專利網。





