[發(fā)明專利]基于圖的文本表示方法有效
| 申請?zhí)枺?/td> | 201710599697.2 | 申請日: | 2017-07-21 |
| 公開(公告)號: | CN107357918B | 公開(公告)日: | 2022-01-25 |
| 發(fā)明(設計)人: | 周法國 | 申請(專利權(quán))人: | 中國礦業(yè)大學(北京) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/284 |
| 代理公司: | 北京方圓嘉禾知識產(chǎn)權(quán)代理有限公司 11385 | 代理人: | 董芙蓉 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文本 表示 方法 | ||
1.基于圖的文本表示方法,其特征在于:其方法步驟為:
步驟一:輸入文本文檔D;
步驟二:輸出文本圖G(V,E,W1,W2);
步驟三:確定每個文檔對應圖模型的最多頂點個數(shù)n;
步驟四:對文檔進行分詞、詞性標注、預處理,并對其進行詞頻統(tǒng)計;
步驟五:選取最能代表該文檔的特征詞條,其個數(shù)不超過n,并記錄所有特征詞在文檔中的先后順序;
步驟六:對文檔D,由其所有特征詞條作為圖模型的頂點,相應的特征詞條的出現(xiàn)頻率構(gòu)成頂點的權(quán)重,從而構(gòu)成頂點的權(quán)重集合W1;
步驟七:如果兩個特征詞在文檔的某一段落中先后出現(xiàn),則它們之間有一條有向邊,邊的方向由先出現(xiàn)的特征詞指向后出現(xiàn)的特征詞;
步驟八:根據(jù)公式(1)確定特征詞條的關(guān)聯(lián)矩陣M,U;
步驟九:根據(jù)公式對矩陣U進行歸一化處理,確定歸一化后的關(guān)聯(lián)矩陣W;
步驟八所述公式(1)是由定義1的兩個特征詞條之間邊的語義測度定義,語義測度定義:wAB=1/(num(B)-num(A)) (1)
其中,num(B)表示特征詞條B在文檔中的順序號,num(A)表示特征詞條A在文檔中的順序號;
其中定義1是一個文檔D對應的就是詞語義空間下的圖G,G是一個四元組G(V,E,W1,W2)由帶有權(quán)的頂點集V(G)和帶有權(quán)的邊集E(G)構(gòu)成的帶權(quán)有向圖,頂點集V(G)由出現(xiàn)在文檔D中所有特征詞條構(gòu)成;邊上的權(quán)W2表示與其關(guān)聯(lián)的兩個特征詞條間約束程度的大小,所有的邊所構(gòu)成的集合稱之為邊集E(G),邊上的權(quán)W2構(gòu)成的集合稱為邊的權(quán)重集W2。
2.根據(jù)權(quán)利要求1所述的基于圖的文本表示方法,其特征在于:所述定義1的文檔表達形式為:
T=[t1,t2,…,tn] (2)
其中,T:特征詞條集合;ti為特征詞條,i=1,2,…,n;M:特征詞條的關(guān)聯(lián)矩陣;aij:特征詞條ti和tj的關(guān)聯(lián)強度(1≤i≤j≤n),
如果某個詞A在同一段落中同時多次約束另一個詞B,則僅計他們之間的最近約束關(guān)系,根據(jù)定義1可知,最大約束值為1,得到矩陣U:
一般地,需要對矩陣U進行歸一化處理,
令
其中i,j,k,l=1,2,…,n則得到歸一化的矩陣W:
3.根據(jù)權(quán)利要求1所述的基于圖的文本表示方法,其特征在于:兩個文檔D1和D2語義越接近,則它們的對應的文檔圖也越相似,相反,兩個文檔圖越相似,則它們在語義上是越接近的,兩個文檔D1和D2語義越接近,體現(xiàn)在圖的特征上,兩個圖就有更多的相同的頂點和邊,并且邊上的權(quán)值也越接近。
4.根據(jù)權(quán)利要求1所述的基于圖的文本表示方法,其特征在于:假設兩個文檔D1和D2對應的帶權(quán)有向圖分別為G1和G2,G1和G2的最大公共子圖為C,則文檔D1和D2的相似性定義如下:
其中,|V(C)|代表帶權(quán)有向圖G1和G2的最大公共子圖C的頂點個數(shù),n=Max{|V(G1)|,V(G2)},常數(shù)因子β取0~1之間的小數(shù),
文檔相似度,反映兩篇文檔之間的相似程度,通常為一個0~1之間的數(shù)值,0表示不相似,1表示完全相似,數(shù)值越大表示兩篇文檔越相似,
兩個文檔語義越接近,體現(xiàn)在圖的特征上,兩個圖就有更多相同的頂點和邊,并且邊上的權(quán)值也越接近,式(7)中,是對兩個圖的頂點組成的度量,兩個文檔語義越接近,對應的圖越相似,取值越大,越接近1;而是對兩個圖的邊的組成的度量,兩個文檔語義越接近,對應的圖越相似,取值越大,越接近1,線性組合代表了對兩個文檔對應的圖的相似性的度量,并且S(D1,D2)取值介于0~1之間,相應地,兩個文檔D1和D2的距離Dis(D1,D2)=1-S(D1,D2)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國礦業(yè)大學(北京),未經(jīng)中國礦業(yè)大學(北京)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710599697.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種方便自動充氣的氣柱袋
- 下一篇:一種可防止灰塵掉落的測塵濾膜存放裝置





