[發(fā)明專利]基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法有效
| 申請?zhí)枺?/td> | 201410215328.5 | 申請日: | 2014-05-21 |
| 公開(公告)號: | CN103970888B | 公開(公告)日: | 2017-02-15 |
| 發(fā)明(設(shè)計)人: | 魏墨濟(jì);楊子江;朱世偉;于俊鳳;李晨;蔡斌雷;王蕾;馮海洲;王彥 | 申請(專利權(quán))人: | 山東省科學(xué)院情報研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟(jì)南泉城專利商標(biāo)事務(wù)所37218 | 代理人: | 褚慶森 |
| 地址: | 250014 山東省濟(jì)南市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 網(wǎng)絡(luò) 度量 指標(biāo) 文檔 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,更具體的說,尤其涉及一種根據(jù)不同文檔的用詞特點(diǎn)所決定的其特征網(wǎng)絡(luò)的度量指標(biāo)不同來區(qū)分文檔種類的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法。
背景技術(shù)
著Internet技術(shù)的發(fā)展進(jìn)步,網(wǎng)絡(luò)中的文檔資源不斷豐富,這其中既有豐富人們精神生活的小說、散文等文學(xué)作品,也有為人們提供知識為科研奠定基礎(chǔ)的科技文獻(xiàn),這些數(shù)字資源既是人們智慧和技術(shù)的結(jié)晶,更是人類文明的寶貴財富。然而隨著大數(shù)據(jù)時代的到來,呈指數(shù)級增長的海量資源為文檔的有效組織和管理提出了挑戰(zhàn)。文檔分類是指按照文檔或內(nèi)容的屬性,對文檔集合中的每一個文檔指定一個或多個類別,通過類別的劃定可以采用“分而治之”的思想對文檔進(jìn)行組織,從而有效地降低類別中文檔資源的數(shù)量,提高文檔的檢索效率,進(jìn)而提升文檔管理的能力。近年來,文檔分類研究已成為圖書情報、數(shù)據(jù)挖掘以及智能信息檢索等多個學(xué)科領(lǐng)域關(guān)注的熱點(diǎn)。
當(dāng)前文檔分類一般是采用統(tǒng)計學(xué)習(xí)方法,基于文本分類技術(shù)通過對文本內(nèi)容的分析,將文檔歸入一個或多個合適的類別,實(shí)現(xiàn)文檔的自動分類。目前最常用的文檔分類算法模型主要有K近鄰算法(K-Nearest Neighbor,KNN)、貝葉斯算法(Bayes)、支持向量機(jī)(Support Vector Machine,SVM)算法和決策樹算法。
其中,KNN算法通過計算待分類文檔的特征值與訓(xùn)練樣本集中每個文檔特征值的相似度,找出K個與待分類文檔最相似的文檔,根據(jù)待分類文檔與相似文檔的加權(quán)距離,判斷待分類文檔的類別。Bayes算法是一類基于概率模型的分類算法,其中最簡單的樸素貝葉斯算法在估計分類條件概率時假設(shè)文檔的各特征值之間是相互獨(dú)立的。而作為文檔特征值的高頻詞在實(shí)際情況中并不滿足獨(dú)立性假設(shè),因此出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法。SVM算法建立在VC維理論和結(jié)構(gòu)風(fēng)險最小理論上,通過訓(xùn)練樣本的學(xué)習(xí),找出能夠較好區(qū)分不同類樣本點(diǎn)的超平面,以此對待分類文檔的類別進(jìn)行判斷。決策樹算法以歸納學(xué)習(xí)算法為基礎(chǔ),從一組無序、無規(guī)則的樣本集合中找出類似于樹形的分類規(guī)則。樹中的每個內(nèi)節(jié)點(diǎn)表示特征,而葉節(jié)點(diǎn)表示特定的類別,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就表示一條合取規(guī)則,整棵樹就是文檔的分類規(guī)則。
隨著理論研究的成熟,上述算法模型已廣泛應(yīng)用于各類文檔的分類中,如科技文獻(xiàn)、電子郵件、web頁面、技術(shù)專利等。這些算法通過對所提取的文檔特征值進(jìn)行訓(xùn)練,找出最能代表主題的特征值構(gòu)建分類模型,有效地實(shí)現(xiàn)了給定領(lǐng)域中不同主題文檔的分類。然而脫離了主題的依賴,在未確定領(lǐng)域之前,這些分類算法則無法從宏觀上對無主題限制的文檔建立有效的分類模型。上述問題便存在于文學(xué)作品與科技文獻(xiàn)的區(qū)分中,也即無法有效地分類一篇文檔屬于一篇科技文獻(xiàn)還是一篇小說或是一篇散文。因為文學(xué)作品和科技文獻(xiàn)所涉及的領(lǐng)域和主題無限,并且不同類文檔所涉及的領(lǐng)域和主題還存在交叉的現(xiàn)象時,無法在訓(xùn)練階段提供準(zhǔn)確的類別定義,也就無法抽取能夠表征類別的特征值集合,因此難以為此種分類問題構(gòu)建分類模型。
發(fā)明內(nèi)容
本發(fā)明為了克服上述技術(shù)問題的缺點(diǎn),提供了一種基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法。
本發(fā)明的基于網(wǎng)絡(luò)度量指標(biāo)的文檔分類方法,包括樣本訓(xùn)練階段和文檔分類階段,其特征在于,
所述樣本訓(xùn)練階段通過以下步驟來實(shí)現(xiàn):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省科學(xué)院情報研究所,未經(jīng)山東省科學(xué)院情報研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410215328.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:鑄坯生產(chǎn)裝置
- 下一篇:一種造型機(jī)復(fù)式儲砂斗
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





