[發明專利]基于圖的文本表示方法有效
| 申請號: | 201710599697.2 | 申請日: | 2017-07-21 |
| 公開(公告)號: | CN107357918B | 公開(公告)日: | 2022-01-25 |
| 發明(設計)人: | 周法國 | 申請(專利權)人: | 中國礦業大學(北京) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/284 |
| 代理公司: | 北京方圓嘉禾知識產權代理有限公司 11385 | 代理人: | 董芙蓉 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 表示 方法 | ||
本發明涉及文本表示技術領域,尤其是基于圖的文本表示方法,其方法步驟為:確定每個文檔對應圖模型的最多頂點個數n,對文檔進行分詞、詞性標注、預處理,并對其進行詞頻統計;選取最能代表該文檔的特征詞條,其個數不超過n,并記錄所有特征詞在文檔中的先后順序;對文檔D,由其所有特征詞條作為圖模型的頂點,相應的特征詞條的出現頻率構成頂點的權重。本發明有益效果:詞語義空間就是由詞與詞、詞與詞之間的約束關系所構成的網絡圖,用詞與詞之間的約束關系的強弱來表示語義距離,用圖的基本元素來度量圖的相似性,取得了很好的聚類效果,如果從文本的外部特征來反映其語義信息,特征詞條、特征詞條的頻度及其特征詞條的位置關系。
技術領域
本發明涉及文本表示技術領域,尤其是基于圖的文本表示方法。
背景技術
在自然語言處理及相關領域中,經典的文本表示模型基本很少考慮文本中詞項的順序關系對于語義表達的作用,并且假設詞項之間是相互獨立的。實際上,詞項之間的序的關系會影響文本的語義,漢語詞序的改變往往會影響詞語間的關系進而引起語義的改變。一個簡單的例子是“A喜歡B”與“B喜歡A”,句子中用到的詞項相同,而詞序的不同導致了語義的差異。目前最為流行的文本表示模型VSM模型在其模型假設中就忽略了序的關系。
文本表示方法中最常用的就是向量空間模型,這是一種基于詞袋(bag-of-words)的方法,但是它無法改變的是,這種表示方法丟失了原始文本中的很多信息,比如:文本中詞的順序、文本中句子和段落的邊界等信息。
針對向量空間表示模型的缺陷,國內外許多學者提出了基于圖模型的文檔表示方法。如Svetlana在其論文中提出的基于輔助詞典VerbNet和WordNet的文檔概念圖表示模型;Bhoopesh和Pushpak在他們的論文中提出了根據UNL圖來構造代表文檔的特征向量,并采用SOM技術對文本進行聚類;還有Inderjeet和Eric在他們的論文中也提出了用于多文檔摘要提取的文檔圖模型表示方法。這些圖模型雖然很好地體現了文檔的語義信息,但都過于復雜,很難給出相似性度量標準,并且有些還需要額外的輔助信息。最近,Adam Schenker等人在他們的論文中提出了一種較為簡單的基于圖模型的文檔表示方法,但他們的模型主要建立在文本特征詞條的位置布爾關聯的基礎上,并沒有考慮特征詞條出現的頻度對文本主要內容的影響。
因此,對于上述問題有必要提出基于圖的文本表示方法。
發明內容
針對上述現有技術中存在的不足,本發明的目的在于提供基于圖的文本表示方法,能夠更好地表示文本、提高信息檢索、文本分類應用的效果。
基于圖的文本表示方法,其方法步驟為:步驟一:輸入文本文檔D;步驟二:輸出文本類圖G(V,E,W1,W2);步驟三:確定每個文檔對應圖模型的最多頂點個數n;步驟四:對文檔進行分詞、詞性標注、預處理,并對其進行詞頻統計;步驟五:選取最能代表該文檔的特征詞條,其個數不超過n,并記錄所有特征詞在文檔中的先后順序;步驟六:對文檔D,由其所有特征詞條作為圖模型的頂點,相應的特征詞條的出現頻率構成頂點的權重;步驟七:如果兩個特征詞在文檔的某一段落中先后出現,則它們之間有一條有向邊,邊的方向由先出現的特征詞指向后出現的特征詞,并統計這兩個特征詞條在該文檔中共現的次數;步驟八:根據公式(1)確定特征詞條的關聯矩陣M,U;步驟九:根據公式對矩陣U進行歸一化處理,確定歸一化后的關聯矩陣W。
優選地,所述公式(1)是由定義1兩個特征詞條之間邊的權值亦即語義測度定義,語義測定定義:wAB=1/(num(B)-num(A))
(1)
其中,num(B)表示特征詞條B在文檔中的順序號,num(A)表示特征詞條A在文檔中的順序號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學(北京),未經中國礦業大學(北京)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710599697.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種方便自動充氣的氣柱袋
- 下一篇:一種可防止灰塵掉落的測塵濾膜存放裝置





