[發明專利]動機詞匯的自動分類過濾生成創意點計算方法有效
| 申請號: | 201710036978.7 | 申請日: | 2017-01-18 |
| 公開(公告)號: | CN106844616B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 張福泉 | 申請(專利權)人: | 閩江學院 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/35 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊;丘鴻超 |
| 地址: | 350108 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動機 詞匯 自動 分類 過濾 生成 創意 計算方法 | ||
1.一種動機詞匯的自動分類過濾生成創意點計算方法,其特征在于:包括如下步驟,
S1、采用爬蟲法對動機詞匯語料信息進行采集,為動機詞匯語料信息聚類處理提供基礎依據;
S2、根據步驟S1獲取的動機詞匯語料信息,采用SVD進行動機詞匯信息聚類處理;
S3、在對動機詞匯進行聚類處理的基礎上,利用貝葉斯網絡計算動機詞匯之間的相關性,并以本體理論為基礎,按短語或者句子結構生成創意點,對動機詞匯進行分類過濾生成;
所述步驟S1具體實現如下,
S11、可獲取信息權值的計算:
假設關鍵詞匯集合W=(W1,W2,...,Wn),第i個關鍵詞匯Wi有xi(xi≥1)個概念意義,記作從關鍵詞匯集合轉化到概念集合TW,每個關鍵詞匯的概念可表示為:tjwi=(wi,tji),j=1,2,...,xi;則第i個動機詞匯的第j個意義可表示為:
則關鍵動機詞匯tk在動機詞匯語料庫di里的動機詞匯權值為:
wik=tfik×log(N/nk) (2)
其中,N為語料庫di中動機詞匯的總數,nk為包含關鍵動機詞匯tk的動機詞匯的總數,tfik為tk在語料庫di中出現的頻數;則語料庫di的向量可表示為:di=(wi1,wi2,...,win);
S12、基于權值的動機詞匯相關語料相關度計算:
先通過權值計算動機詞匯屬于每個類別的概率,用向量(w1,w2,...,wn)表示;計算獲取的動機詞匯語料庫di中動機詞匯屬于每一類別的概率,可用下式進行表示:
其中:|D|為動機詞匯語料庫di中類Bj的訓練樣本數,N(wm,di)為動機詞匯wm在動機詞匯語料庫di中的詞頻,|V|為總動機詞匯數,為類Bj中所有動機詞匯的詞頻和;則其動機詞匯相關語料相關度可用下式進行計算:
式中:|C|為類的總數,N(wm,di)為wm在動機詞匯語料庫di中的詞頻,n為關鍵動機詞匯的總數,通過相關度計算,確定所要獲取的動機詞匯信息;
S13、基于相關度的動機詞匯相關語料信息獲取:
結合相關度的計算結果,通過爬蟲去采集動機詞匯相關語料信息,為動機詞匯語料信息聚類處理提供基礎依據。
2.根據權利要求1所述的動機詞匯的自動分類過濾生成創意點計算方法,其特征在于:所述步驟S2具體實現如下,
S21、根據信息論,計算動機詞匯出現的概率;定義基于帶單個詞匯在語料庫中出現的平均信息量為:
式中:Pi(w)為單個動機詞匯w在語料庫中出現的概率,n為常數;W(w)的值越大,說明單個動機詞匯w所表示的平均信息量越大,單個動機詞匯就越普通,可以當作是噪聲詞省略掉;
考慮到當一個動機詞匯在句子中出現的平均信息量和包含該動機詞匯的句子在語料庫中的平均信息量都較大時,表示該詞較為普通;定義兩者之和為聯合熵W'(w):
W'(w)=H(w)+H(s|w) (9)
單個動機詞匯在句子中出現的平均信息量H(w):
包含此單個動機詞匯w的句子在語料庫中的平均信息量H(s|w):
單個動機詞匯w在語料庫中出現的概率Pj(w):
包含單個動機詞匯w的句子在語料庫中出現的概率Pl(s|w):
式中:fj(w)為單個動機詞匯w在語料庫中出現的頻率,n為語料庫中的動機詞匯數,fl(s|w)為包含單個動機詞匯的句子s在語料庫l中出現的頻率;
S22、通過計算閾值,對動機詞匯特征進行選擇;假設,TF是詞頻,表示特征tk在此語料庫中出現的頻率,IDF是反語料庫頻率,IDF=log(N/n),N表示語料庫中所有的動機詞匯數,n為包含特征tk的動機詞匯數;IDF的的基本思想是如果包含某個特征tk的語料信息越少,IDF就越大,說明特征tk有很好的類別區分能力,則TF-IDF方法的計算公式如下所示:
為了使TF值對權重的影響進一步降低,對上式進行改進,表達式如下所示:
通過計算每個特征tk的期望交叉熵,選取預定數目的最佳特征作為結果的特征子集;計算公式如下:
式中:P(tk)為特征tk出現的概率,P(Ci|tk)為類別Ci在特征tk出現情況下的概率,P(Ci)為Ci的出現概率;
S23、在根據信息增益法計算動機詞匯的信息增益,當動機詞匯特征tk信息增益大于給定值時作為特征項,計算公式如下:
其中,n為特征集中的維數,pi為當前詞匯特征出現的概率;當tk互信息量大于給定值時作為特征項;特征tk和類別Ci的互信息體現了特征與類別的相關程度;特征tk的互信息量為:
S24、應用SVD進行動機詞匯聚類處理,k為動機詞匯向量中最關鍵的詞匯元素,動機詞匯向量是由n個特征組成的n維向量,由于每個動機詞匯的特征數不同,可以認為每個動機詞匯向量都處于一個空間中,若想要對不同的動機詞匯進行聚類處理,就需要將不同維數的動機詞匯向量映射到同一個空間中進行比較,降維節后的新矩陣也將大大減少文本處理中不良信息的干擾,則矩陣A進行奇異分解降維寫成矩陣Ak:
式中:ui和vi表示動機詞匯特征向量和動機詞匯向量的語義空間,同樣的,在進行文本相似度計算的時候,需要將代表文本特征的向量映射到與Ak行向量具有相同的維數;則得到k維映射后的向量t'為:
通過k維映射后,就可以得到初始向量的相似向量,接下來就可以采用SVD進行動機詞匯聚類處理,假設有一組動機詞匯序列(X,s)或者(X,d),其中X表示一組樣本,s和d分別表示度量樣本間相似度或相異度的標準;若C={C1,C2,...,Ck}其中Ci=(i=1,2,...,k)是X的子集,如下所示:
X=C1∪C2...∪Ck (21)
對任意的i≠j,有Ci∩Cj=φ,C中的動機詞匯C1,C2,...,Ck叫作簇;對于動機詞匯特征相似度作為動機詞匯相似度的聚類來說,讓同一個聚類簇中的單個動機詞匯間相似度更高,則得到聚類結果表達式如下所示:
綜上所述,在獲取動機詞匯語料信息的基礎上,可采用SVD進行動機詞匯信息聚類處理,為動機詞匯自動分類過濾生成創意點的計算提供基礎依據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于閩江學院,未經閩江學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710036978.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車變速箱流水線用托盤
- 下一篇:一種新型方便面包裝盒





