[發(fā)明專利]一種基于維基語義匹配的文檔分類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201610712106.3 | 申請日: | 2016-08-23 |
| 公開(公告)號: | CN106372122B | 公開(公告)日: | 2018-04-10 |
| 發(fā)明(設(shè)計)人: | 吳宗大;徐湖鵬 | 申請(專利權(quán))人: | 溫州大學(xué)甌江學(xué)院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢臻誠專利代理事務(wù)所(普通合伙)42233 | 代理人: | 仲暉 |
| 地址: | 325035 浙江省溫州市甌海經(jīng)濟(jì)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 匹配 文檔 分類 方法 系統(tǒng) | ||
1.一種基于維基語義匹配的文檔分類方法,其特征在于,包括以下步驟:
(1)對于待分類的多個文本文檔形成的文檔集對于其中每一個文本文檔利用關(guān)鍵詞匹配獲得所述文本文檔的關(guān)鍵詞集合,并利用匹配規(guī)則從預(yù)先設(shè)置的維基語義參考空間中匹配得到所述文本文檔的相關(guān)的參考概念集合;
所述維基語義參考空間按照如下方法構(gòu)建:
從維基百科數(shù)據(jù)庫中抽取出概念實體,記作:對于其中每一個概念按照以下步驟處理,以構(gòu)建維基語義參考空間;
A、單詞分割:使用NLTK分詞器將其中所述概念表示成一個獨立單詞集合;
B、去停用詞:將步驟A獲得的每個概念對應(yīng)的單詞集合去除停用詞,從而將每個概念表示成一個獨立具有含義的單詞集合;所述停用詞為NLTK所列出的停用詞表中單獨使用不攜帶實體信息僅起到語法作用的詞匯;
C、詞干化:采用Snowball框架將步驟B獲得的每個概念對應(yīng)的獨立具有含義的單詞集合中的每個單詞轉(zhuǎn)化為其詞干,從而將每個概念表示為一個關(guān)鍵詞集合,可記作:
D、映射:根據(jù)步驟C中獲得的每個概念對應(yīng)的關(guān)鍵詞集合,將所述概念映射為一個關(guān)鍵詞向量,記作:其中為所述維基概念各個關(guān)鍵詞k的TF-IDF值,按照如下方法計算:
其中表示關(guān)鍵詞k在維基概念中的出現(xiàn)次數(shù);idf(k)表示概念集中包含關(guān)鍵詞k的維基概念數(shù),即:
(2)根據(jù)步驟(1)中獲得的所述文本文檔的關(guān)鍵詞集合生成其關(guān)鍵詞向量,根據(jù)所述關(guān)鍵詞向量以及步驟(1)中獲得的所述文本文檔的參考概念集合生成其概念向量;
(3)根據(jù)步驟(2)中獲得的概念向量和關(guān)鍵詞向量,計算所述待分類的多個文本文檔集中任意兩個文本文檔之間的綜合相似性;
(4)根據(jù)步驟(3)中任意兩個文本文檔之間的綜合相似性,將綜合相似性超過預(yù)設(shè)的綜合相似性閾值的文本文檔分作一類,從而對所述待分類的文本文檔集進(jìn)行分類。
2.如權(quán)利要求1所述的基于維基語義匹配的文檔分類方法,其特征在于,步驟(1)包括子步驟(1-1)關(guān)鍵詞匹配:所述對于每一個文本文檔其關(guān)鍵詞集合按照如下步驟構(gòu)建:
(1-1-1)單詞分割:使用NLTK分詞器將所述文本文檔表示為一個獨立的單詞集合;
(1-1-2)去停用詞:對于步驟(1-1-1)獲得的所述文本文檔對應(yīng)的單詞集合去除停用詞,將所述文本文檔表示成一個獨立具有含義的單詞集合;所述停用詞為NLTK所列出的停用詞表中單獨使用不攜帶實體信息僅起到語法作用的詞匯;
(1-1-3)詞干化:采用Snowball框架將步驟(1-1-2)獲得的所訴文本文檔對應(yīng)的獨立具有含義的單詞集合中的每個單詞轉(zhuǎn)化為其詞干,從而將所述文本文檔表示為一個關(guān)鍵詞集合,記作:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于溫州大學(xué)甌江學(xué)院,未經(jīng)溫州大學(xué)甌江學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610712106.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





