[發(fā)明專利]基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法有效
| 申請?zhí)枺?/td> | 201410215328.5 | 申請日: | 2014-05-21 |
| 公開(公告)號: | CN103970888B | 公開(公告)日: | 2017-02-15 |
| 發(fā)明(設(shè)計(jì))人: | 魏墨濟(jì);楊子江;朱世偉;于俊鳳;李晨;蔡斌雷;王蕾;馮海洲;王彥 | 申請(專利權(quán))人: | 山東省科學(xué)院情報(bào)研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟(jì)南泉城專利商標(biāo)事務(wù)所37218 | 代理人: | 褚慶森 |
| 地址: | 250014 山東省濟(jì)南市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 網(wǎng)絡(luò) 度量 指標(biāo) 文檔 分類 方法 | ||
1.一種基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,包括樣本訓(xùn)練階段和文檔分類階段,其特征在于,
所述樣本訓(xùn)練階段通過以下步驟來實(shí)現(xiàn):
a).樣本采集,從現(xiàn)有多類文檔庫中采集足夠數(shù)量的、已明確類別的科技文獻(xiàn)、小說和散文,作為訓(xùn)練樣本;并獲取樣本的文本內(nèi)容;
b).文本分詞,采用現(xiàn)有基于詞典的分詞方法對每篇文檔進(jìn)行分詞,獲取文檔所包含的詞匯;
c).詞性分析,在分詞的過程中,同時(shí)為文檔的每個(gè)句子構(gòu)建語法樹,分析句子中每個(gè)分詞的詞性,并對分詞的詞性進(jìn)行標(biāo)注;
d).去除虛詞和人名,為了突出文檔所要表達(dá)的語義,將詞匯中的虛詞和人名去除,以獲取不包含虛詞和人名的文檔詞匯;
e).統(tǒng)計(jì)詞頻,統(tǒng)計(jì)步驟d)中所獲取的不包含虛詞和人名的詞匯中每個(gè)分詞出現(xiàn)的次數(shù),獲取分詞的詞頻,將分詞和對應(yīng)的詞頻作為文檔的特征;
f).構(gòu)建特征集合,為了盡可能多的涵蓋文本內(nèi)容并減小構(gòu)建網(wǎng)絡(luò)的計(jì)算量,對每篇文檔按詞頻數(shù)量從多至少選取前25%~45%的分詞作為文檔的特征集合;
g).構(gòu)建特征網(wǎng)絡(luò)的頂點(diǎn),設(shè)是一篇文檔,是文檔的句子集合,是文檔的特征集合,=,=,其中,為文檔中的句子,1≤≤;為文檔中的分詞,1≤≤;以文檔的特征集合中的每個(gè)分詞為網(wǎng)絡(luò)頂點(diǎn)構(gòu)建特征網(wǎng)絡(luò),形成特征網(wǎng)絡(luò)的頂點(diǎn)集合=;
h).構(gòu)建特征網(wǎng)絡(luò)的邊,任意選取網(wǎng)絡(luò)頂點(diǎn)集合的兩個(gè)頂點(diǎn)和,如果其同時(shí)出現(xiàn)于文檔句子集合中的任意一個(gè)句子中,則為這兩個(gè)頂點(diǎn)之間建立一條網(wǎng)絡(luò)邊,直至所有任意兩個(gè)網(wǎng)絡(luò)頂點(diǎn)判斷完畢,所形成的網(wǎng)絡(luò)邊集合為=,1≤≤;通過頂點(diǎn)和邊的建立,就形成了頂點(diǎn)為、邊為的文檔特征網(wǎng)絡(luò);
i).計(jì)算網(wǎng)絡(luò)的平均度,通過公式(1)計(jì)算出文檔特征網(wǎng)絡(luò)的網(wǎng)絡(luò)平均度:
(1)
其中,為網(wǎng)絡(luò)頂點(diǎn)的數(shù)目,為頂點(diǎn)的度數(shù),其數(shù)值為與頂點(diǎn)相關(guān)聯(lián)的邊的條數(shù);通過公式(1)可計(jì)算出樣本集合中每篇文檔所對應(yīng)網(wǎng)絡(luò)平均度的度量指標(biāo);
j).計(jì)算網(wǎng)絡(luò)的聚類系數(shù),聚類系數(shù)表征了一個(gè)點(diǎn)的鄰節(jié)點(diǎn)之間相互連接的程度,說明了網(wǎng)絡(luò)中的頂點(diǎn)之間結(jié)集成團(tuán)程度的系數(shù);首先通過公式(2)求取單個(gè)頂點(diǎn)的聚類系數(shù):
(2)
其中,為頂點(diǎn)所擁有的邊數(shù),為頂點(diǎn)的所有個(gè)鄰居頂點(diǎn)所擁有邊數(shù)的和;
然后通過公式(3)計(jì)算出網(wǎng)絡(luò)的聚類系數(shù):
(3)
其中,為頂點(diǎn)的聚類系數(shù);通過公式(3)可計(jì)算出樣本集合中每篇文檔所對應(yīng)網(wǎng)絡(luò)的聚類系數(shù)的度量指標(biāo);
k).計(jì)算網(wǎng)絡(luò)的特征路徑長度,連通網(wǎng)絡(luò)中任意兩個(gè)頂點(diǎn)的最少邊數(shù),稱為這兩個(gè)頂點(diǎn)的路徑長度,網(wǎng)絡(luò)中所有頂點(diǎn)對的路徑長度的平均值,稱為網(wǎng)絡(luò)的特征路徑長度;首先通過Dijstra算法得到文檔特征網(wǎng)絡(luò)中任意兩個(gè)頂點(diǎn)和之間的最短路徑長度,然后根據(jù)公式(4)計(jì)算出網(wǎng)絡(luò)的特征路徑長度:
(4)
通過公式(4)可計(jì)算出樣本集合中每篇文檔所對應(yīng)特征網(wǎng)絡(luò)的特征路徑長度的度量指標(biāo);
l).獲取各類文檔網(wǎng)絡(luò)度量指標(biāo)的取值區(qū)間,對于訓(xùn)練樣本中的所有文檔均執(zhí)行步驟b)至步驟k),以獲取所有文檔的網(wǎng)絡(luò)度量指標(biāo);按照科技文獻(xiàn)、小說和散文分別對網(wǎng)絡(luò)度量指標(biāo)進(jìn)行歸類,統(tǒng)計(jì)每類文檔的三個(gè)網(wǎng)絡(luò)度量指標(biāo)的取值范圍,歸納得到不同類文檔各個(gè)網(wǎng)絡(luò)度量指標(biāo)的規(guī)律性取值區(qū)間,直至各類網(wǎng)絡(luò)度量指標(biāo)的取值區(qū)間滿足精度要求,將其作為待分類文檔的分類標(biāo)準(zhǔn);設(shè)科技文獻(xiàn)、小說和散文的網(wǎng)絡(luò)平均度的取值區(qū)間分別為、、,聚類系數(shù)的取值分別為、、,網(wǎng)絡(luò)平均度的取值分別為、、;
所述文檔分類階段通過以下步驟來實(shí)現(xiàn):
m).待分類文檔的處理,獲取待分類的電子文檔,并按照步驟b)至步驟k)中的方法對待分類的文檔進(jìn)行處理,求取待分類電子文檔的網(wǎng)絡(luò)平均度、聚類系數(shù)和特征路徑的長度,分別記為、和;
n).文檔分類的判斷,根據(jù)步驟m)中求取的待分類文檔的網(wǎng)絡(luò)平均度、聚類系數(shù)和特征路徑的長度,判斷、和落入的區(qū)間所對應(yīng)的文檔類別,采用投票制將待分類文檔歸入相應(yīng)的文檔類別中。
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,其特征在于:步驟a)中所述的獲取樣本的文本內(nèi)容包括抽取文檔文本和預(yù)處理,在抽取文檔文本的過程中,對pdf、doc和html格式的文檔分別采用PDFBox插件、javadoc插件和HTMlParser解析文檔以獲取文檔文本;預(yù)處理為將獲取的文檔文本中的無關(guān)信息進(jìn)行去除,對于html文檔應(yīng)將與主題無關(guān)的廣告、友情鏈接、同類推薦垃圾信息過濾掉。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省科學(xué)院情報(bào)研究所,未經(jīng)山東省科學(xué)院情報(bào)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410215328.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





