[發明專利]文本模式識別方法有效
| 申請號: | 201110367595.0 | 申請日: | 2011-11-18 |
| 公開(公告)號: | CN103123685A | 公開(公告)日: | 2013-05-29 |
| 發明(設計)人: | 吳秦;張存銓;艾迪·福勒 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20 |
| 代理公司: | 無錫互維知識產權代理有限公司 32236 | 代理人: | 王愛偉 |
| 地址: | 214122 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 模式識別 方法 | ||
【技術領域】
本發明涉及文本識別領域,尤其涉及文本模式識別方法。
【背景技術】
隨著網絡的發展和數字圖書館的出現,如何從海量的文本中快速獲取有效信息成為信息處理領域和模式識別領域的重要研究課題之一。如果我們能夠根據文本的內容對文本按照一定的分類體系進行自動分類標記,對不同的文本文件進行相似性分析,則可以更好地幫助人們組織及挖掘文本信息。
現有技術的實現方案:文本中的關鍵詞長期以來一直被用作文本文件的一個特征項。基于關鍵詞的重復頻率,我們通常用決策樹、網絡神經元、貝葉斯方法或者支撐向量機等方法對文本進行自動分類。對于不同文本之間的相似性比較,通常也是基于關鍵詞的重復頻率進行比較。
僅基于關鍵詞的重復頻率可以在一定程度上對文本進行比較粗略的大類劃分,但是當我們將該方法用于細分不同文本文件的相似性時,結果卻不是很好。這主要是因為:(1)僅利用關鍵詞的重復頻率這一方法忽略了關鍵詞與關鍵詞之間可能存在的相互依賴性。(2)傳統的方法也沒有利用文本文件的結構信息。這些都將直接影響文本文件分類結果和文本文件相似性比較結果。
因此,有必要開發出一種可以改進的文本模式識別方法來克服上述問題。
【發明內容】
本發明要解決的技術問題之一在于提供一種文本模式識別方法,其可以更多、更有效的保存了原始文本文件的特征信息,使得在進行文本分類及文本相似性計算時能得到更好的結果。
為了解決上述問題,根據本發明的一個方面,本發明提供了一種文本模式識別方法,其包括:逐行掃描原始文本文件,記錄每個關鍵詞在所述文本文件中出現的次數和位置;根據記錄的關鍵詞在所述文本文件中出現的次數和位置將所述文本文件映射為帶有多重邊的有向加權圖,其中所述帶有多重邊的有向加權圖中每個節點代表一個關鍵詞;將帶有多重邊的有向加權圖簡化為簡單有向加權圖;將所述簡單有向加權圖用矩陣來表示;和根據所獲得的矩陣及記錄的關鍵詞出現次數,將所述文本文件映射為文本特征向量。
進一步的,假設關鍵詞集為K={k1,k2,...,kn},關鍵字ki在所述文本文件中出現次數為fi,用F=[f1,f2,…,fn]表示所有關鍵詞的出現次數信息,i大于等于1小于等于n,n為大于等于1的自然數。
進一步的,帶有多重邊的有向加權圖中每個節點代表一個關鍵詞ki,若關鍵詞ki在所述文本文件中位置pi出現,關鍵詞kj在所述文本文件中位置pj出現,且位置pj在位置pi之后,則在帶有多重邊的有向加權圖中加一條有向邊kikj,有向邊kikj的權重為pi和pj之間的距離,若關鍵詞ki和關鍵詞kj在所述文本文件中出現多次,則在帶有多重邊的有向加權圖中用同樣的方法將這些在所述文本文件中不同位置出現的關鍵詞ki和kj映射為多重邊,j大于等于1小于等于n。
更進一步的,將帶有多重邊的有向加權圖簡化為簡單有向加權圖包括:
將帶有多重邊的有向加權圖的節點集合作為簡單有向加權圖的節點集合;
簡單有向加權圖中從節點ki到節點kj之間的有向邊表示為kikj,kikj的權值w(kikj)為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110367595.0/2.html,轉載請聲明來源鉆瓜專利網。





