[發(fā)明專(zhuān)利]一種科研學(xué)者畫(huà)像的快速表征方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010040201.X | 申請(qǐng)日: | 2020-01-15 |
| 公開(kāi)(公告)號(hào): | CN111241283B | 公開(kāi)(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 蔡世民;王銳杰;李健強(qiáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06N5/025 | 分類(lèi)號(hào): | G06N5/025;G06F40/284;G06F40/216;G06F16/35;G06F18/25 |
| 代理公司: | 電子科技大學(xué)專(zhuān)利中心 51203 | 代理人: | 陳一鑫 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 科研 學(xué)者 畫(huà)像 快速 表征 方法 | ||
該發(fā)明公開(kāi)了一種科研學(xué)者畫(huà)像的快速表征方法,涉及數(shù)據(jù)挖掘領(lǐng)域。該發(fā)明在數(shù)據(jù)庫(kù)中用多字段聯(lián)合查詢,通過(guò)數(shù)據(jù)融合匹配的方式將多個(gè)分散數(shù)據(jù)集結(jié)合,形成了科研學(xué)者s與摘要文本a之間的一對(duì)多關(guān)系;對(duì)全數(shù)據(jù)集的摘要語(yǔ)料進(jìn)行相應(yīng)的文本向量表示,以此作為表征學(xué)者畫(huà)像維度差異性的關(guān)鍵語(yǔ)料。區(qū)別于過(guò)去基于統(tǒng)計(jì)學(xué)基礎(chǔ)所構(gòu)建的學(xué)者畫(huà)像維度,本發(fā)明利用機(jī)器學(xué)習(xí)方法,在相關(guān)算法的基礎(chǔ)上,對(duì)于所有摘要文本語(yǔ)料進(jìn)行了聚類(lèi),利用同類(lèi)結(jié)果的相似關(guān)系檢索關(guān)鍵詞字段,經(jīng)統(tǒng)計(jì)排序最終形成畫(huà)像標(biāo)簽的排序向量集合,用于表征科研學(xué)者的研究興趣。同時(shí),這一排序向量對(duì)于科研學(xué)者的研究領(lǐng)域相似度計(jì)算和社區(qū)劃分等方面都具有應(yīng)用價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是學(xué)術(shù)研究中針對(duì)科研學(xué)者畫(huà)像的快速表征方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,越來(lái)越多的用戶行為和生產(chǎn)行為數(shù)據(jù)被我們所記錄,在商業(yè)、生活和科研領(lǐng)域的數(shù)據(jù)量都呈現(xiàn)出了爆發(fā)式的增加,由此我們迎來(lái)了大數(shù)據(jù)時(shí)代。在大數(shù)據(jù)時(shí)代,用戶的信息在各式各樣的站點(diǎn)和網(wǎng)絡(luò)中出現(xiàn),用戶畫(huà)像是一種對(duì)目標(biāo)群體進(jìn)行詳細(xì)刻繪、結(jié)合相關(guān)用途進(jìn)行畫(huà)像設(shè)計(jì),從而利用相應(yīng)的標(biāo)簽信息為群體提供服務(wù)的有效工具。在學(xué)術(shù)大數(shù)據(jù)領(lǐng)域,由于學(xué)術(shù)數(shù)據(jù)的日益完善,對(duì)于科研學(xué)者這一群體的分析挖掘提供了更加豐富的佐證,也為科研學(xué)者畫(huà)像的構(gòu)建提供了新的思路。
學(xué)者的學(xué)術(shù)畫(huà)像有助于對(duì)學(xué)者的研究興趣、社區(qū)劃分和影響力評(píng)估等方面進(jìn)行更準(zhǔn)確的分析,對(duì)于相關(guān)的學(xué)術(shù)推薦和學(xué)術(shù)合作提供重要依據(jù)。由于當(dāng)前學(xué)術(shù)數(shù)據(jù)呈現(xiàn)指數(shù)增長(zhǎng)趨勢(shì),全球?qū)W術(shù)論文已超過(guò)3億篇,科研學(xué)術(shù)領(lǐng)域的工作者也已達(dá)到1億人,給科研學(xué)者畫(huà)像帶來(lái)了更多的機(jī)遇和挑戰(zhàn)。因此,如果能夠提供一種在大規(guī)模學(xué)術(shù)數(shù)據(jù)集上對(duì)科研學(xué)者的畫(huà)像維度進(jìn)行快速表征的方法,就可以大大減少工作量、并且提高畫(huà)像的多樣性。
近年來(lái),科研學(xué)者畫(huà)像的研究尚處于起步階段,目前已知的一些畫(huà)像構(gòu)建方法有如下缺點(diǎn):
數(shù)據(jù)集之間缺乏有效的清洗和融合,在沒(méi)有對(duì)數(shù)據(jù)孤島進(jìn)行有效連通之前,得到的信息往往都以偏概全。因此,采用合理、高效的數(shù)據(jù)融合方法既可以提升數(shù)據(jù)的多樣性,又可以為科研學(xué)者畫(huà)像的準(zhǔn)確性提供保障。
畫(huà)像構(gòu)建使用的標(biāo)簽的種類(lèi)有限。在大量采用直接數(shù)據(jù)的情況下,缺少對(duì)于數(shù)據(jù)文本的二次利用,也缺乏使用自然語(yǔ)言處理等相關(guān)技術(shù)對(duì)于文本進(jìn)行再挖掘,從而提取出間接數(shù)據(jù)。因?yàn)椋谟邢薜奈谋菊Z(yǔ)料中進(jìn)行充分挖掘可以提升數(shù)據(jù)價(jià)值,這對(duì)于畫(huà)像之間的差異性刻畫(huà)尤其重要。
傳統(tǒng)的畫(huà)像構(gòu)建方法大多都從最基本的統(tǒng)計(jì)學(xué)角度進(jìn)行分析。缺乏運(yùn)用當(dāng)前更加合理準(zhǔn)確的人工智能和機(jī)器學(xué)習(xí)領(lǐng)域相關(guān)工具解決問(wèn)題的思考,因此,刻畫(huà)出的畫(huà)像維度不夠鮮明,對(duì)于畫(huà)像模型真正的應(yīng)用場(chǎng)景考慮并不周全,難以進(jìn)行有效的使用。
發(fā)明內(nèi)容
本發(fā)明提供了一種科研學(xué)者畫(huà)像的快速表征方法。充分利用科研學(xué)者所發(fā)表的學(xué)術(shù)論文數(shù)據(jù),通過(guò)數(shù)據(jù)驅(qū)動(dòng),發(fā)明一種能夠結(jié)合自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)算法的畫(huà)像維度快速表征方法,能夠?qū)蒲袑W(xué)者的研究興趣的維度進(jìn)行快速準(zhǔn)確的刻畫(huà)。除此以外,該方法具有自適應(yīng)性,適用于不同種類(lèi)不同領(lǐng)域的學(xué)術(shù)數(shù)據(jù)集,并且能夠?qū)Υ笠?guī)模數(shù)據(jù)集的進(jìn)行批量處理。
在本發(fā)明中,選取了易取、免費(fèi)的學(xué)術(shù)論文摘要作為主要語(yǔ)料。在學(xué)術(shù)論文的結(jié)構(gòu)中,由于論文的摘要是整個(gè)文章的精簡(jiǎn)說(shuō)明,它用簡(jiǎn)短文字陳述論文內(nèi)容,概況出論文的主要觀點(diǎn)。因此,摘要文本內(nèi)容與難以獲取的全文文本內(nèi)容相比,不僅具有很高的挖掘價(jià)值,而且易于獲取。因此,本發(fā)明提供的方法將重心放在學(xué)術(shù)論文的摘要文本上,利用相關(guān)文本挖掘和向量表征方法,結(jié)合機(jī)器學(xué)習(xí)中的聚類(lèi)算法,形成一種通用數(shù)據(jù)的提取、處理和表征流程,從而提出了一種能夠?qū)蒲袑W(xué)者畫(huà)像維度進(jìn)行快速表征的方法。
本發(fā)明所提出的一種科研學(xué)者畫(huà)像的快速表征方法,包括下列步驟:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040201.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 科研信息演化的分析方法和裝置
- 一種科研用商品智能搜索方法和系統(tǒng)
- 一種科研用商品銷(xiāo)售平臺(tái)的信息推送方法和設(shè)備
- 一種科研管理裝置
- 一種基于實(shí)驗(yàn)最大可重復(fù)性的科研協(xié)作系統(tǒng)
- 一種實(shí)驗(yàn)儀器共享服務(wù)平臺(tái)
- 一種科研績(jī)效考評(píng)系統(tǒng)
- 基于科研能力數(shù)據(jù)的科研項(xiàng)目申報(bào)智能匹配推送方法
- 一種科研人員合作社區(qū)的構(gòu)建方法及裝置
- 面向煙草領(lǐng)域科研人員的多維度畫(huà)像構(gòu)建方法及推薦方法
- 基于學(xué)者科研成果挖掘的學(xué)者精準(zhǔn)定位方法及裝置
- 科研社群劃分及核心學(xué)者發(fā)現(xiàn)方法、系統(tǒng)、介質(zhì)及終端
- 一種面向?qū)W者的用戶畫(huà)像構(gòu)建及應(yīng)用方法
- 基于學(xué)者論文關(guān)系網(wǎng)絡(luò)的學(xué)者學(xué)術(shù)影響力計(jì)算方法及系統(tǒng)
- 一種基于引文網(wǎng)絡(luò)與科研合作網(wǎng)絡(luò)的領(lǐng)域?qū)<义噙x方法
- 基于知識(shí)圖譜的專(zhuān)業(yè)特長(zhǎng)學(xué)者推薦方法
- 基于大數(shù)據(jù)分析的個(gè)性化教育管理系統(tǒng)、方法、介質(zhì)
- 一種基于異質(zhì)學(xué)術(shù)網(wǎng)絡(luò)進(jìn)行學(xué)者畫(huà)像的方法及系統(tǒng)
- 一種基于合作網(wǎng)絡(luò)的學(xué)者檢索方法和裝置
- 凳(學(xué)者)
- 用戶畫(huà)像標(biāo)簽查詢方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 廣告投放方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種主體畫(huà)像生成的方法、裝置和存儲(chǔ)介質(zhì)
- 基于流平臺(tái)的智能全景客戶畫(huà)像聯(lián)動(dòng)方法及系統(tǒng)
- 畫(huà)像構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 畫(huà)像構(gòu)建方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種適用于城市軌道交通的乘客畫(huà)像系統(tǒng)及其構(gòu)建方法
- 用戶畫(huà)像方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及終端設(shè)備
- 一種跨境場(chǎng)景畫(huà)像構(gòu)建方法和裝置
- 一種用戶畫(huà)像方法與裝置





