[發明專利]文本模式識別方法有效
| 申請號: | 201110367595.0 | 申請日: | 2011-11-18 |
| 公開(公告)號: | CN103123685A | 公開(公告)日: | 2013-05-29 |
| 發明(設計)人: | 吳秦;張存銓;艾迪·福勒 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20 |
| 代理公司: | 無錫互維知識產權代理有限公司 32236 | 代理人: | 王愛偉 |
| 地址: | 214122 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 模式識別 方法 | ||
1.一種文本模式識別方法,其特征在于,其包括:
逐行掃描原始文本文件,記錄每個關鍵詞在所述文本文件中出現的次數和位置;
根據記錄的關鍵詞在所述文本文件中出現的次數和位置將所述文本文件映射為帶有多重邊的有向加權圖,其中所述帶有多重邊的有向加權圖中每個節點代表一個關鍵詞;
將帶有多重邊的有向加權圖簡化為簡單有向加權圖;
將所述簡單有向加權圖用矩陣來表示;和
根據所獲得的矩陣及記錄的關鍵詞出現次數,將所述文本文件映射為文本特征向量。
2.根據權利要求1所述的文本模式識別方法,其特征在于,假設關鍵詞集為K={k1,k2,...,kn},關鍵字ki在所述文本文件中出現次數為fi,用F=[f1,f2,…,fn]表示所有關鍵詞的出現次數信息,i大于等于1小于等于n,n為大于等于1的自然數。
3.根據權利要求2所述的文本模式識別方法,其特征在于,帶有多重邊的有向加權圖中每個節點代表一個關鍵詞ki,若關鍵詞ki在所述文本文件中位置pi出現,關鍵詞kj在所述文本文件中位置pj出現,且位置pj在位置pi之后,則在帶有多重邊的有向加權圖中加一條有向邊kikj,有向邊kikj的權重為pi和pj之間的距離,若關鍵詞ki和關鍵詞kj在所述文本文件中出現多次,則在帶有多重邊的有向加權圖中用同樣的方法將這些在所述文本文件中不同位置出現的關鍵詞ki和kj映射為多重邊,j大于等于1小于等于n。
4.根據權利要求3所述的文本模式識別方法,其特征在于,將帶有多重邊的有向加權圖簡化為簡單有向加權圖包括:
將帶有多重邊的有向加權圖的節點集合作為簡單有向加權圖的節點集合;
簡單有向加權圖中從節點ki到節點kj之間的有向邊表示為kikj,kikj的權值w(kikj)為:
其中Eij代表帶有多重邊的有向加權圖中節點ki到節點kj之間有向邊集合,?代表有向邊e在帶有多重邊的有向加權圖中的權重值。?
5.根據權利要求4所述的文本模式識別方法,其特征在于,表示簡單有向加權圖的矩陣W為:
6.根據權利要求5所述的文本模式識別方法,其特征在于,映射所述文本文件的文本特征向量R(D)為:
R(D)=[f1,f2,…,fn,w(k1,k1),…,w(k1,kn),…,w(kn,k1),…,w(kn,kn)]。
7.根據權利要求6所述的文本模式識別方法,其特征在于,假設有文本文件為D1,…,Dm,得到相應的文本特征向量則為R(D1),…,R(Dm),
所述文本模式識別方法還包括:
利用如下公式計算任意兩個文本文件Dx,Dy之間的相似性,
其中x、y大于等于1小于等于m。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110367595.0/1.html,轉載請聲明來源鉆瓜專利網。





