[實用新型]學(xué)術(shù)文獻自動分類系統(tǒng)有效
| 申請?zhí)枺?/td> | 200920151682.0 | 申請日: | 2009-04-22 |
| 公開(公告)號: | CN201654779U | 公開(公告)日: | 2010-11-24 |
| 發(fā)明(設(shè)計)人: | 張振海;羅霄 | 申請(專利權(quán))人: | 同方知網(wǎng)(北京)技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 孫明巖 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 學(xué)術(shù) 文獻 自動 分類 系統(tǒng) | ||
1.一種面向中圖法的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,該學(xué)術(shù)文獻自動分類系統(tǒng)包括基礎(chǔ)數(shù)據(jù)服務(wù)器、特征選擇器、訓(xùn)練器和分類器,其中,
基礎(chǔ)數(shù)據(jù)服務(wù)器分別與特征選擇器、訓(xùn)練器和分類器相連接,用于以數(shù)據(jù)庫的形式存儲學(xué)術(shù)文獻文本,所述學(xué)術(shù)文獻文本包括訓(xùn)練文本和待分類文本;
特征選擇器進一步與訓(xùn)練器相連接,用于從基礎(chǔ)數(shù)據(jù)服務(wù)器讀取所述訓(xùn)練文本,并選擇分類所需的特征詞,得到特征詞詞典;
訓(xùn)練器進一步與分類器相連接,用于從基礎(chǔ)數(shù)據(jù)服務(wù)器讀取所述訓(xùn)練文本,并計算所述特征選擇器得到的所述特征詞與分類號的概率關(guān)系,從而得到詞語-分類號映射詞典;并且
分類器分別與基礎(chǔ)數(shù)據(jù)服務(wù)器和訓(xùn)練器相連接,用于從基礎(chǔ)數(shù)據(jù)服務(wù)器讀取待分類文本,利用所述特征詞詞典以及所述詞語-分類號映射詞典計算所述待測試文本對應(yīng)的中圖分類號。
2.根據(jù)權(quán)利要求1所述的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,所述特征選擇器進一步包括:
讀取單元,與計算單元相連接,用于從所述基礎(chǔ)數(shù)據(jù)服務(wù)器中讀取所述訓(xùn)練文本;
計算單元,進一步與選擇單元相連接,用于計算所述訓(xùn)練文本中的所有詞語在所述各個分類號下的權(quán)重;
選擇單元,進一步與所述訓(xùn)練器相連接,用于對所述權(quán)重進行排序和篩選從而得到特征詞詞典。
3.根據(jù)權(quán)利要求2所述的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,所述特征選擇器進一步包括:
統(tǒng)計單元,分別與所述讀取單元與所述計算單元相連接,用于統(tǒng)計所述訓(xùn)練文本中詞語與分類號的對應(yīng)關(guān)系及數(shù)量關(guān)系,并將統(tǒng)計值發(fā)送到所述計算單元;
判斷單元,分別與所述計算單元和所述選擇單元相連接,用于判斷所述訓(xùn)練文本中的詞語是否都已計算完畢,如果“是”,則將所述計算單元得到的所述權(quán)重發(fā)送到選擇單元,如果“否”,則將未進行計算的詞語發(fā)送到所述計算單元進行計算。
4.根據(jù)權(quán)利要求1所述的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,所述訓(xùn)練器進一步包括:
讀取單元,與查找單元相連接,用于從所述基礎(chǔ)數(shù)據(jù)服務(wù)器中讀取所述訓(xùn)練文本;
查找單元,進一步與統(tǒng)計單元相連接,用于利用所述特征詞詞典查找所述訓(xùn)練文本中的特征詞;
統(tǒng)計單元,進一步與計算單元相連接,用于統(tǒng)計所述特征詞的對應(yīng)分類號并統(tǒng)計所述訓(xùn)練文本中出現(xiàn)所述特征詞的文檔數(shù)量以及在所述訓(xùn)練文本的篇名、中文關(guān)鍵字、全文、中文摘要字段統(tǒng)計所述特征詞對應(yīng)分類號的出現(xiàn)數(shù)量;
計算單元,進一步與生成單元相連接,用于根據(jù)所述特征詞在不同字段位置的出現(xiàn)數(shù)量進行加權(quán),計算其在所述分類號下的權(quán)重,并按照權(quán)重對所述分類號由高到低排序;
生成單元,進一步與所述分類器相連接,用于將所述詞形、所述分類號、所述訓(xùn)練文本中出現(xiàn)所述特征詞的文檔數(shù)量、所述權(quán)重存入所述詞語-分類號映射詞典。
5.根據(jù)權(quán)利要求1所述的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,所述分類器進一步包括:
讀取單元,與分詞單元相連接,用于從所述基礎(chǔ)數(shù)據(jù)服務(wù)器中讀取所述待分類文本;
分詞單元,進一步與計算單元相連接,用于根據(jù)所述特征詞詞典對所述待分類文本進行分詞,獲得所述待分類文本中的特征詞;
計算單元,進一步與分類單元相連接,用于計算所述特征詞的權(quán)重并根據(jù)所述詞語-分類號映射詞典計算所述特征詞在所有分類號下相應(yīng)的權(quán)重,從而計算出所述待分類文本中的所有特征詞對應(yīng)的每個分類號的總權(quán)重;
分類單元,進一步與所述基礎(chǔ)數(shù)據(jù)服務(wù)器相連接,用于對所述計算單元得到的所述分類號總權(quán)重進行排序,將排序前幾位的分類號作為所述待分類文本的分類號,并輸出所述分類號。
6.根據(jù)權(quán)利要求5所述的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,所述分類器進一步包括:
統(tǒng)計單元,分別與所述分詞單元與所述計算單元相連接,用于統(tǒng)計所述特征詞在所述待分類文本中的出現(xiàn)頻度并統(tǒng)計所述特征詞的文本頻度,并將統(tǒng)計值發(fā)送到所述計算單元。
7.根據(jù)權(quán)利要求1所述的學(xué)術(shù)文獻自動分類系統(tǒng),其特征在于,所述基礎(chǔ)數(shù)據(jù)服務(wù)器中的訓(xùn)練文本和待分類文本以統(tǒng)一的表的結(jié)構(gòu)存儲,包括文本篇名、中文摘要、全文、刊名、引文和分類號,其中,訓(xùn)練文本的分類號是已知的,待分類文本的分類號初始為空。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同方知網(wǎng)(北京)技術(shù)有限公司,未經(jīng)同方知網(wǎng)(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200920151682.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:USB Key裝置
- 下一篇:一種有四個測量盤的二量程電壓測量裝置
- 一種用學(xué)術(shù)術(shù)語導(dǎo)航網(wǎng)絡(luò)學(xué)術(shù)資源的方法
- 一種學(xué)術(shù)指數(shù)體系及其發(fā)布方法
- 學(xué)術(shù)資料搜索方法和裝置
- 一種基于用戶行為的學(xué)術(shù)資源推薦方法
- 加權(quán)學(xué)術(shù)績效考核方法及系統(tǒng)
- 學(xué)術(shù)項目推薦
- 用于學(xué)術(shù)會議的學(xué)術(shù)報告管理方法和管理系統(tǒng)
- 一種醫(yī)學(xué)術(shù)語系統(tǒng)的構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 醫(yī)學(xué)術(shù)語標準化方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種適用于標準醫(yī)學(xué)術(shù)語的驗證系統(tǒng)及方法





