[發(fā)明專利]一種基于科技文獻(xiàn)挖掘的研究熱點(diǎn)分析方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110952302.9 | 申請(qǐng)日: | 2021-08-19 |
| 公開(公告)號(hào): | CN113761199A | 公開(公告)日: | 2021-12-07 |
| 發(fā)明(設(shè)計(jì))人: | 朱全銀;曹猛;周泓;王媛媛;趙建洋;馬思偉;朱良生;張倩穎 | 申請(qǐng)(專利權(quán))人: | 淮陰工學(xué)院 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 223003 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 科技 文獻(xiàn) 挖掘 研究 熱點(diǎn) 分析 方法 裝置 | ||
1.一種基于科技文獻(xiàn)挖掘的研究熱點(diǎn)分析方法,其特征在于,包括以下步驟:
(1)利用爬蟲技術(shù)獲取鏈接start_url中的文獻(xiàn)數(shù)據(jù),并通過文本預(yù)處理得到文獻(xiàn)集合OD,同時(shí)使用數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),構(gòu)建文獻(xiàn)私有數(shù)據(jù)庫(kù);
(2)利用BM25分詞算法對(duì)文獻(xiàn)集合OD進(jìn)行分詞,并通過改進(jìn)后的TextCNN對(duì)其進(jìn)行分類,并將結(jié)果進(jìn)行實(shí)體抽取,得到文獻(xiàn)實(shí)體集合E;
(3)將文獻(xiàn)實(shí)體集E通過循環(huán)遍歷構(gòu)建實(shí)體-關(guān)系-實(shí)體表達(dá)式,同時(shí)將實(shí)體集中的標(biāo)簽進(jìn)行匹配并將結(jié)果進(jìn)行存儲(chǔ),得到提取后的關(guān)系式集TR;
(4)輸入文獻(xiàn)分類結(jié)果集D,計(jì)算得出單詞文獻(xiàn)概率集并根據(jù)關(guān)鍵詞組得出其對(duì)應(yīng)的支持度組,將結(jié)果進(jìn)行去重處理得出熱點(diǎn)集合Ht,并生成熱點(diǎn)分析模型Ht_model;
(5)將熱點(diǎn)分析模型裝成開放接口STHtAPI,用戶由客戶端向服務(wù)端發(fā)起Web請(qǐng)求時(shí)接口對(duì)發(fā)起的請(qǐng)求參數(shù)進(jìn)行響應(yīng),并將處理得到的科技熱點(diǎn)集Ht存儲(chǔ)在Web平臺(tái),同時(shí)將分析得到的核心參數(shù)信息進(jìn)行回調(diào),并把核心結(jié)果集HtR與關(guān)系式TR通過知識(shí)圖譜形式向用戶進(jìn)行可視化展示。
2.根據(jù)權(quán)利要求1所述的基于科技文獻(xiàn)挖掘的研究熱點(diǎn)分析方法,其特征在于,所述步驟(1)包括以下步驟:
(1.1)輸入獲取科技文獻(xiàn)的鏈接數(shù)據(jù)集start_urls,并設(shè)置文獻(xiàn)信息的字段;
(1.2)定義循環(huán)變量i1用于遍歷start_urls,i1∈[1,len(start_urls)],i1賦初始值1;
(1.3)如果請(qǐng)求鏈接響應(yīng),則進(jìn)入步驟(1.5),否則進(jìn)入步驟(1.4);
(1.4)加載ip代理池,更換ip;
(1.5)如果i1≤len(start_urls),則進(jìn)入步驟(1.6),否則進(jìn)入步驟(1.13);
(1.6)定義列表頁(yè)鏈接為standard_list,定義循環(huán)變量i2用于遍歷standard_list,i2∈[1,len(standard_list)],i2賦初始值1;
(1.7)如果i2≤len(standard_list),則進(jìn)入步驟(1.8),否則進(jìn)入步驟(1.10);
(1.8)利用Xpath獲取文獻(xiàn)標(biāo)題、作者、時(shí)間等信息并進(jìn)行存儲(chǔ),得到原始文獻(xiàn)集T={t1,t2,…,ti2};
(1.9)i2=i2+1;
(1.10)刪除獲取的空文獻(xiàn)信息,同時(shí)去除冗雜數(shù)據(jù)和重復(fù)數(shù)據(jù)得到文獻(xiàn)集OD;
(1.11)將得到的初步文獻(xiàn)集OD,導(dǎo)入到數(shù)據(jù)庫(kù)中,構(gòu)建科技文獻(xiàn)私有數(shù)據(jù)庫(kù);
(1.12)i1=i1+1;
(1.13)start_url集合解析結(jié)束,得到預(yù)處理后的文獻(xiàn)集合OD。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于淮陰工學(xué)院,未經(jīng)淮陰工學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110952302.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于PageRank和時(shí)間衰減的科技文獻(xiàn)重要度評(píng)價(jià)方法
- 基于手機(jī)APP的科技信息服務(wù)查詢系統(tǒng)
- 一種科技情報(bào)信息管理系統(tǒng)
- 一種高校科技成果收集方法
- 一種表征科技專家成果能力的科技詞條抽取方法
- 一種科技成果轉(zhuǎn)化信息服務(wù)方法及系統(tǒng)
- 一種基于語(yǔ)義分析的科技成果入庫(kù)方法及系統(tǒng)
- 一種科技項(xiàng)目申報(bào)咨詢服務(wù)平臺(tái)
- 面向科技服務(wù)的知識(shí)圖譜構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種科技金融評(píng)估系統(tǒng)的構(gòu)建方法
- PDF科技文獻(xiàn)管理系統(tǒng)及其方法
- 建立新舊文獻(xiàn)代替關(guān)系的方法及裝置
- 一種自動(dòng)標(biāo)注文獻(xiàn)作廢的方法和裝置
- 一種新型的中文科技文獻(xiàn)半自動(dòng)標(biāo)引方法
- 文獻(xiàn)歸一方法、文獻(xiàn)搜索方法及對(duì)應(yīng)裝置
- 文獻(xiàn)價(jià)值評(píng)估方法和裝置
- 一種基于引用次數(shù)的文獻(xiàn)推薦方法
- 一種多語(yǔ)種文獻(xiàn)分類方法、裝置及存儲(chǔ)介質(zhì)
- 一種文獻(xiàn)標(biāo)簽的識(shí)別方法及裝置
- 一種基于文檔數(shù)據(jù)分析的在線文獻(xiàn)歸納和儲(chǔ)存系統(tǒng)





