[發明專利]文本模式識別方法有效

申請號：	201110367595.0	申請日：	2011-11-18
公開（公告）號：	CN103123685A	公開（公告）日：	2013-05-29
發明（設計）人：	吳秦;張存銓;艾迪·福勒	申請（專利權）人：	江南大學
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/20
代理公司：	無錫互維知識產權代理有限公司 32236	代理人：	王愛偉
地址：	214122 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本模式識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本模式識別方法，其特征在于，其包括：

逐行掃描原始文本文件，記錄每個關鍵詞在所述文本文件中出現的次數和位置；

根據記錄的關鍵詞在所述文本文件中出現的次數和位置將所述文本文件映射為帶有多重邊的有向加權圖，其中所述帶有多重邊的有向加權圖中每個節點代表一個關鍵詞；

將帶有多重邊的有向加權圖簡化為簡單有向加權圖；

將所述簡單有向加權圖用矩陣來表示；和

根據所獲得的矩陣及記錄的關鍵詞出現次數，將所述文本文件映射為文本特征向量。

2.根據權利要求1所述的文本模式識別方法，其特征在于，假設關鍵詞集為K＝{k₁，k₂，...，k_n}，關鍵字k_i在所述文本文件中出現次數為f_i，用F＝[f₁，f₂，…，f_n]表示所有關鍵詞的出現次數信息，i大于等于1小于等于n，n為大于等于1的自然數。

3.根據權利要求2所述的文本模式識別方法，其特征在于，帶有多重邊的有向加權圖中每個節點代表一個關鍵詞k_i，若關鍵詞k_i在所述文本文件中位置p_i出現，關鍵詞k_j在所述文本文件中位置p_j出現，且位置p_j在位置p_i之后，則在帶有多重邊的有向加權圖中加一條有向邊k_ik_j，有向邊k_ik_j的權重為p_i和p_j之間的距離，若關鍵詞k_i和關鍵詞k_j在所述文本文件中出現多次，則在帶有多重邊的有向加權圖中用同樣的方法將這些在所述文本文件中不同位置出現的關鍵詞k_i和k_j映射為多重邊，j大于等于1小于等于n。