[發(fā)明專利]一種前沿主題識別方法、系統(tǒng)及計算機(jī)設(shè)備在審
| 申請?zhí)枺?/td> | 202210649852.8 | 申請日: | 2022-06-09 |
| 公開(公告)號: | CN115017315A | 公開(公告)日: | 2022-09-06 |
| 發(fā)明(設(shè)計)人: | 譚曉;李佳娛;李輝;靳曉宏;西桂權(quán) | 申請(專利權(quán))人: | 北京市科學(xué)技術(shù)研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06F40/30 |
| 代理公司: | 北京城烽知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11829 | 代理人: | 王新月 |
| 地址: | 100089 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 前沿 主題 識別 方法 系統(tǒng) 計算機(jī) 設(shè)備 | ||
本發(fā)明提供了一種前沿主題識別方法、系統(tǒng)及計算機(jī)設(shè)備。所述方法包括:選擇面向領(lǐng)域的文獻(xiàn)作為數(shù)據(jù)集,將數(shù)據(jù)集進(jìn)行預(yù)處理;根據(jù)文獻(xiàn)共被引關(guān)系,構(gòu)建引文耦合矩陣并進(jìn)行標(biāo)準(zhǔn)化,生成文獻(xiàn)關(guān)系標(biāo)準(zhǔn)矩陣;利用LDA模型進(jìn)行文本建模,生成文獻(xiàn)相似矩陣;將文獻(xiàn)相似矩陣和文獻(xiàn)關(guān)系標(biāo)準(zhǔn)化矩陣進(jìn)行線性融合,形成文本相似矩陣;利用社團(tuán)發(fā)現(xiàn),得到主題簇,對所述主題簇進(jìn)行可視化描述,得到對所述面向領(lǐng)域的文獻(xiàn)的前沿主題的識別結(jié)果。本發(fā)明的方法在同時分析結(jié)構(gòu)和語義層面有較高的效率,在關(guān)鍵詞消歧、人工解讀方面有較高的準(zhǔn)確度,克服了以往單一維度分析文本的弊端,同時解決了文本相似度、融合的問題,可廣泛應(yīng)用于結(jié)構(gòu)和語義的文本分析中。
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種前沿主題識別方法、系統(tǒng)及計算機(jī)設(shè)備。
背景技術(shù)
當(dāng)今世界正處在科技創(chuàng)新突破和新科技革命的前夜,科技發(fā)展的交叉性、復(fù)雜性和多樣性特征日益顯著,學(xué)科間、門類間的交叉與融合日漸普遍。科學(xué)研究前沿(Scientific Research Front)是一個研究領(lǐng)域的最新趨勢和概念現(xiàn)狀。從上世紀(jì)六十年代就開始了對研究前沿的探索,但針對科學(xué)前沿的研究熱潮是在2005年之后才興起。它涵蓋內(nèi)容廣泛,綜合了科學(xué)學(xué)、圖書館學(xué)、情報學(xué)、人工智能、內(nèi)容可視化與網(wǎng)絡(luò)方面的學(xué)科內(nèi)容。近年來,前沿研究的學(xué)術(shù)關(guān)注度不斷提高,與其相同或相近的術(shù)語還有新興主題/領(lǐng)域研究、話題跟蹤、趨勢探測、科學(xué)研究熱點、顛覆性技術(shù)預(yù)測、突破性技術(shù)預(yù)測等。
科學(xué)研究前沿往往來源于新的科學(xué)發(fā)現(xiàn)或科學(xué)進(jìn)展,而這些新的科學(xué)發(fā)現(xiàn)或進(jìn)展有可能快速地吸引領(lǐng)域內(nèi)科學(xué)家的注意,科學(xué)家引用原始論文繼續(xù)發(fā)表論文使這個領(lǐng)域呈現(xiàn)出膨脹的趨勢。因此,研究前沿的產(chǎn)生往往伴隨著相應(yīng)的文獻(xiàn)計量學(xué)特征出現(xiàn),典型的有:新主題詞大量出現(xiàn),而且增速很大;詞間關(guān)系或主題關(guān)系受到其他學(xué)科的影響而發(fā)生變化;主題詞含義由于新現(xiàn)象的出現(xiàn)而含義發(fā)生變化;某主題的文章發(fā)表數(shù)量發(fā)生異常變化,可能突增或者突減;代表新領(lǐng)域的新期刊可能會出現(xiàn);科學(xué)引文網(wǎng)絡(luò)或期刊網(wǎng)絡(luò)發(fā)生異常變化、知識結(jié)構(gòu)發(fā)生重大變化等。對于這些外部特征的監(jiān)測有可能探測到可能的研究前沿。
長期以來,人們開展科學(xué)前沿探測的方法有德爾菲調(diào)查法、文獻(xiàn)計量法等,隨著智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)、知識圖譜等技術(shù)和方法也逐步應(yīng)用于前沿識別,以上方法都在研究實踐中得到廣泛應(yīng)用。從方法歸類上分為基于引文聚類、基于主題詞突增的計量方法;另一類是圍繞指標(biāo)含義的定量化表述及篩選(例如,新穎性、創(chuàng)新性、前瞻性等)。隨著數(shù)據(jù)源的不斷豐富,面臨著多種數(shù)據(jù)源,數(shù)據(jù)互補(bǔ)和校正的視角,基于異源數(shù)據(jù)進(jìn)行融合探測科技發(fā)展的研究開始興起,從單一的論文轉(zhuǎn)向論文、專利、基金項目、報告等開源數(shù)據(jù)的融合,而這種融合不是單一的在計量特征上的融合,而是深入知識單元層面的融合。
而在計量方法中,針對科學(xué)前沿研究的相關(guān)方法基本上都是基于論文引文或主題詞特征的高共現(xiàn)或關(guān)系聚類,通過時間演化,揭示相關(guān)領(lǐng)域的科學(xué)前沿。這類高共現(xiàn)或強(qiáng)關(guān)系通常表明行動者彼此之間具有高度的互動,在某些存在的互動關(guān)系形態(tài)上較親密。因此,在科學(xué)前沿探測中更易被識別確認(rèn)。
同時,由于學(xué)科知識的復(fù)雜性,研究前沿探測中也出現(xiàn)了一些現(xiàn)象值得深入研究,如單一方法的運(yùn)用,很多數(shù)據(jù)挖掘算法通常會將關(guān)注數(shù)據(jù)模型的一個方面,其他維度予以舍棄,但實際上,其他維度所隱藏的重要信息代表的情況,特別是那些低支持度、高置信度的主題更值得關(guān)注;其次,在研究前沿的主題聚類過程中,由于共詞分析采用的是高頻詞,那些相對低頻的主題所組成的類團(tuán),在聚類中無法體現(xiàn),導(dǎo)致無法反映學(xué)科全貌;最后,單一方法或關(guān)系揭示出的微觀內(nèi)容是片面而有限的,在開源情報數(shù)據(jù)環(huán)境中,面向領(lǐng)域的研判和預(yù)警需要更多的數(shù)據(jù)信息進(jìn)行聚合、融合。
發(fā)明內(nèi)容
本發(fā)明實施例公開一種前沿主題識別方法、系統(tǒng)及計算機(jī)設(shè)備,用以解決傳統(tǒng)計量層面的分析無法深入語義,以及主題發(fā)現(xiàn)層面無法進(jìn)行更好解讀的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京市科學(xué)技術(shù)研究院,未經(jīng)北京市科學(xué)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210649852.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





