[發明專利]基于描述文本詞頻的圖模型移動應用分類方法在審
| 申請號: | 202011312652.0 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112632984A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 王兆煜;劉光杰;劉偉偉 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 封睿 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 描述 文本 詞頻 模型 移動 應用 分類 方法 | ||
1.一種基于描述文本詞頻的圖模型移動應用分類方法,其特征在于,具體步驟如下:
步驟1,利用分詞工具將所有應用的描述文本分割成句子并對每個句子進行分詞,對分詞結果進行停用詞過濾和低頻詞過濾。記錄所有出現過的單個詞組和應用所屬的類別;
步驟2,取訓練語料中每條文本的分詞結果,以類別、詞和應用作為節點,以詞和類別、詞和應用、詞和詞、類別和詞之間的相關權值比重作為相應的邊權重,構建無向圖;
步驟3,使用兩層的圖卷積模型算法實現節點權重向量的迭代運算,使用softmax激活函數完成對移動應用的分類與預測。
2.根據權利要求1所述的基于描述文本詞頻的圖模型移動應用分類方法,其特征在于,步驟1中,利用分詞工具將所有應用的描述文本分割成句子,并對每個句子進行分詞,對分詞結果進行停用詞過濾和低頻詞過濾,記錄所有出現過的單個詞組和應用所屬的類別,具體過程如下:
步驟1.1:語料分詞和低頻詞統計:使用哈工大LTP工具對待分類的移動應用描述文本分別進行分句處理,進一步對分句后的結果進行分詞和詞性標注,對照百度自然語言實驗室公開的停用詞列表,去除其中包含的停用詞;
步驟1.2:低頻詞過濾:分別統計分詞結果中各詞的全局頻率和在單一類別下的出現頻率,按照比例去除其中出現次數過少的詞語,重新將結果保存,并計算每條訓練語料在經過過濾后的文本長度,去除其中長度較小的語料,由此得到能充分支撐模型訓練特征需求的文本語料;
步驟1.3:類別標記:記錄所有出現過的單個詞組和應用所屬的類別,每條訓練語料分詞后的結果以空格分開并與其分類標簽保存為json文件。
3.根據權利要求1所述的基于描述文本詞頻的圖模型移動應用分類方法,其特征在于,步驟2中,取訓練語料中每條文本的分詞結果,以類別C、詞W和應用D作為節點,以詞和類別、詞和應用、詞和詞、類別和詞之間的相關權值比重作為相應的邊權重,構建無向圖,具體方法為:
步驟2.1,結合TF-KAI算法,根據詞在類別中、詞在應用語料中出現的頻次計算生成每個詞對應每個類別和應用間的權值比重,作為無向圖中相應節點的邊權重;
(1)對于詞節點和類別節點間的邊權重計算,采用類似于TF-IDF的計算方法,來衡量詞和每種類別之間的對應關系,公式如下:
其中,表示詞節點i與類別節點c之間的邊權重,與n(i,c)表示詞i出現在標注為類別c的應用文本中的次數,而n(c)表示類別c下所有應用文本的總詞數,n表示總類別數,freq(i,c)則表示文本中出現過詞i的類別數;
(2)對于詞節點和應用節點間的邊權重計算,采用交叉熵的計算方法,公式如下:
其中,E(i)表示詞i的交叉熵,表示詞i在類別c中出現的概率,n(i,all)表示詞i在所有類別的描述文本中出現的次數;
對詞i的交叉熵進行歸一化,得到:
其中,NE(i)表示歸一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
將歸一化后的熵值與TF-KAI算法相結合,得到:
其中,表示詞節點i與應用節點d之間的邊權重,n(i,d)表示詞i在應用d的描述文本中出現的次數,n(i,D)表示描述文本中含有詞i的應用個數;
步驟2.2,計算應用和類別間的權重,以此作為無向圖中應用節點和類別節點間的邊權重,即對于應用和類別間的邊權重,將訓練語料中每條移動應用的描述文本中包含的詞與每個類別的權值比重相加,公式如下:
其中,表示應用節點d與類別節點c之間的邊權重,ti表示應用d中包含詞i的集合;
步驟2.3,使用PMI方法衡量詞與詞之間的聯系信息,并作為無向圖中詞節點相互之間的邊權重PMI(i,j),即對于詞節點之間的邊權重,使用PMI方法衡量詞與詞之間的相關信息,公式如下:
式中,PMI(i,j)表示詞節點相互之間的邊權重,p(i,j)是詞i和詞j同時出現的頻度,p(i)是詞i出現的頻度,p(j)是詞j出現的頻度,計算公式為:
其中,#W(i)表示語料中包含詞i的滑動窗口個數,#W(i,j)表示語料中同時包含詞i和詞j的滑動窗口個數,#W表示語料中滑動窗口的總個數,滑動窗口的大小根據語料長短可以自行調整;
步驟2.4,綜合上述邊權重信息,得到鄰接矩陣A,公式如下:
步驟2.5,為了緩解圖模型固有的模型不收斂等問題,加入自循環結構,確定最終的鄰接矩陣A′=A+I。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011312652.0/1.html,轉載請聲明來源鉆瓜專利網。





