[發(fā)明專利]基于圖的文本表示方法有效

申請?zhí)枺?/td>	201710599697.2	申請日：	2017-07-21
公開（公告）號：	CN107357918B	公開（公告）日：	2022-01-25
發(fā)明（設計）人：	周法國	申請（專利權(quán)）人：	中國礦業(yè)大學（北京）
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/36;G06F40/284
代理公司：	北京方圓嘉禾知識產(chǎn)權(quán)代理有限公司 11385	代理人：	董芙蓉
地址：	100083 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于文本表示方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.基于圖的文本表示方法，其特征在于：其方法步驟為：

步驟一：輸入文本文檔D；

步驟二：輸出文本圖G(V,E,W₁,W₂)；

步驟三：確定每個文檔對應圖模型的最多頂點個數(shù)n；

步驟四：對文檔進行分詞、詞性標注、預處理，并對其進行詞頻統(tǒng)計；

步驟五：選取最能代表該文檔的特征詞條，其個數(shù)不超過n，并記錄所有特征詞在文檔中的先后順序；

步驟六：對文檔D，由其所有特征詞條作為圖模型的頂點，相應的特征詞條的出現(xiàn)頻率構(gòu)成頂點的權(quán)重，從而構(gòu)成頂點的權(quán)重集合W₁；

步驟七：如果兩個特征詞在文檔的某一段落中先后出現(xiàn)，則它們之間有一條有向邊，邊的方向由先出現(xiàn)的特征詞指向后出現(xiàn)的特征詞；

步驟八：根據(jù)公式(1)確定特征詞條的關(guān)聯(lián)矩陣M，U；

步驟九：根據(jù)公式對矩陣U進行歸一化處理，確定歸一化后的關(guān)聯(lián)矩陣W；

步驟八所述公式(1)是由定義1的兩個特征詞條之間邊的語義測度定義，語義測度定義：w_AB＝1/(num(B)-num(A)) (1)

其中，num(B)表示特征詞條B在文檔中的順序號，num(A)表示特征詞條A在文檔中的順序號；

其中定義1是一個文檔D對應的就是詞語義空間下的圖G，G是一個四元組G(V,E，W₁,W₂)由帶有權(quán)的頂點集V(G)和帶有權(quán)的邊集E(G)構(gòu)成的帶權(quán)有向圖，頂點集V(G)由出現(xiàn)在文檔D中所有特征詞條構(gòu)成；邊上的權(quán)W₂表示與其關(guān)聯(lián)的兩個特征詞條間約束程度的大小，所有的邊所構(gòu)成的集合稱之為邊集E(G)，邊上的權(quán)W₂構(gòu)成的集合稱為邊的權(quán)重集W₂。

2.根據(jù)權(quán)利要求1所述的基于圖的文本表示方法，其特征在于：所述定義1的文檔表達形式為：

T＝[t₁,t₂,…,t_n] (2)

其中，T：特征詞條集合；t_i為特征詞條，i＝1,2,…,n；M：特征詞條的關(guān)聯(lián)矩陣；a_ij：特征詞條t_i和t_j的關(guān)聯(lián)強度(1≤i≤j≤n)，

如果某個詞A在同一段落中同時多次約束另一個詞B，則僅計他們之間的最近約束關(guān)系，根據(jù)定義1可知，最大約束值為1，得到矩陣U：

一般地，需要對矩陣U進行歸一化處理，

令

其中i,j,k,l＝1,2,…,n則得到歸一化的矩陣W：

3.根據(jù)權(quán)利要求1所述的基于圖的文本表示方法，其特征在于：兩個文檔D₁和D₂語義越接近，則它們的對應的文檔圖也越相似，相反，兩個文檔圖越相似，則它們在語義上是越接近的，兩個文檔D₁和D₂語義越接近，體現(xiàn)在圖的特征上，兩個圖就有更多的相同的頂點和邊，并且邊上的權(quán)值也越接近。

4.根據(jù)權(quán)利要求1所述的基于圖的文本表示方法，其特征在于：假設兩個文檔D₁和D₂對應的帶權(quán)有向圖分別為G₁和G₂，G₁和G₂的最大公共子圖為C，則文檔D₁和D₂的相似性定義如下：

其中，|V(C)|代表帶權(quán)有向圖G₁和G₂的最大公共子圖C的頂點個數(shù)，n＝Max{|V(G₁)|,V(G₂)}，常數(shù)因子β取0～1之間的小數(shù)，

文檔相似度，反映兩篇文檔之間的相似程度，通常為一個0～1之間的數(shù)值，0表示不相似，1表示完全相似，數(shù)值越大表示兩篇文檔越相似，

兩個文檔語義越接近，體現(xiàn)在圖的特征上，兩個圖就有更多相同的頂點和邊，并且邊上的權(quán)值也越接近，式(7)中，是對兩個圖的頂點組成的度量，兩個文檔語義越接近，對應的圖越相似，取值越大，越接近1；而是對兩個圖的邊的組成的度量，兩個文檔語義越接近，對應的圖越相似，取值越大，越接近1，線性組合代表了對兩個文檔對應的圖的相似性的度量，并且S(D₁,D₂)取值介于0～1之間，相應地，兩個文檔D₁和D₂的距離Dis(D₁,D₂)＝1-S(D₁,D₂)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國礦業(yè)大學（北京），未經(jīng)中國礦業(yè)大學（北京）許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710599697.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種方便自動充氣的氣柱袋
下一篇：一種可防止灰塵掉落的測塵濾膜存放裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】