[發(fā)明專利]一種技術(shù)圖譜中技術(shù)領(lǐng)域的自動(dòng)識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010558503.6 | 申請(qǐng)日: | 2020-06-18 |
| 公開(公告)號(hào): | CN111813933A | 公開(公告)日: | 2020-10-23 |
| 發(fā)明(設(shè)計(jì))人: | 華斌;宋平;陸啟宇;張琪祁;趙三珊 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)上海市電力公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36;G06F40/289;G06F40/30 |
| 代理公司: | 上海科盛知識(shí)產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 王懷瑜 |
| 地址: | 200122 上海市浦*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 技術(shù) 圖譜 領(lǐng)域 自動(dòng)識(shí)別 方法 | ||
本發(fā)明涉及一種技術(shù)圖譜中技術(shù)領(lǐng)域的自動(dòng)識(shí)別方法,包括數(shù)據(jù)集準(zhǔn)備、數(shù)據(jù)預(yù)處理、分類模型樣本準(zhǔn)備步驟、多標(biāo)簽分類模型構(gòu)建、技術(shù)領(lǐng)域識(shí)別步驟。與現(xiàn)有技術(shù)相比,本發(fā)明針對(duì)傳統(tǒng)關(guān)鍵字檢索存在的缺點(diǎn),構(gòu)建了多標(biāo)簽分類的訓(xùn)練集,充分考慮文檔之間的語(yǔ)義相似性,解決多義詞、近義詞等問題,可以排除文檔中的噪音影響。構(gòu)建的融合的多標(biāo)簽分類模型,充分利用了各分類算法的優(yōu)勢(shì),排除了單一算法在某些情況下存在的缺陷,提高了分類的準(zhǔn)確率,其自動(dòng)化標(biāo)注的方式克服了人工標(biāo)引的缺點(diǎn),極大提高了多標(biāo)簽文檔分類的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種分類方法,尤其是涉及一種技術(shù)圖譜中技術(shù)領(lǐng)域的自動(dòng)識(shí)別方法。
背景技術(shù)
技術(shù)圖譜是一種特殊的知識(shí)圖譜,是以技術(shù)及其拓?fù)潢P(guān)系為核心構(gòu)建的知識(shí)圖譜。技術(shù)圖譜展示的是公司技術(shù)的門類及關(guān)系。技術(shù)圖譜的實(shí)現(xiàn)原理是基于復(fù)雜網(wǎng)絡(luò)技術(shù),通過(guò)對(duì)技術(shù)領(lǐng)域、科技成果(論文、專利、成果等)、作者、研究機(jī)構(gòu)以及關(guān)鍵詞的關(guān)系分析,發(fā)現(xiàn)技術(shù)研究的走向或技術(shù)趨勢(shì)性線索,識(shí)別關(guān)鍵和熱點(diǎn)技術(shù)的網(wǎng)絡(luò)分布。在技術(shù)圖譜的復(fù)雜網(wǎng)絡(luò)中,研究的主題是“技術(shù)領(lǐng)域-技術(shù)領(lǐng)域”之間的關(guān)系。在技術(shù)圖譜中,科技成果(論文、專利、成果等)與作者、研究機(jī)構(gòu)以及關(guān)鍵詞的關(guān)系子圖已經(jīng)確立,技術(shù)門類框架是一個(gè)獨(dú)立的層次樹,并且會(huì)隨公司的需求而變動(dòng)。因此,技術(shù)門類框架中的技術(shù)領(lǐng)域和科技成果之間關(guān)系的自動(dòng)識(shí)別匹配是構(gòu)建技術(shù)圖譜非常關(guān)鍵的一個(gè)環(huán)節(jié),它可以實(shí)現(xiàn)技術(shù)圖譜隨技術(shù)門類框架的變動(dòng)而動(dòng)態(tài)自動(dòng)構(gòu)建。
一個(gè)科技成果可能同時(shí)屬于多個(gè)技術(shù)領(lǐng)域,即有多個(gè)類別標(biāo)簽,因此技術(shù)領(lǐng)域和科技成果之間關(guān)系的自動(dòng)識(shí)別和匹配可以轉(zhuǎn)化為多標(biāo)簽分類問題。實(shí)現(xiàn)文檔的分類一般可以采用基于關(guān)鍵字的信息檢索技術(shù)方法和人工標(biāo)引的方法,關(guān)鍵字信息檢索方法是對(duì)用戶提供的關(guān)鍵字進(jìn)行判斷,若關(guān)鍵字在文獻(xiàn)中出現(xiàn)則返回結(jié)果,未出現(xiàn)則不返回結(jié)果。該技術(shù)一個(gè)明顯的缺點(diǎn)是關(guān)鍵字通常并不能完全表達(dá)檢索需求,只是表面的詞重復(fù),缺乏文字背后的語(yǔ)義理解以及聯(lián)系,不能理解文檔的內(nèi)容并提取其所揭示的主題內(nèi)容。人工標(biāo)引的方法往往存在一定的主觀性,并且人力要求高,效率低等問題。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種技術(shù)圖譜中技術(shù)領(lǐng)域的自動(dòng)識(shí)別方法,充分考慮文檔之間的語(yǔ)義相似性,解決多義詞、近義詞等問題,可以排除文檔中的噪音影響。
本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
一種技術(shù)圖譜中技術(shù)領(lǐng)域的自動(dòng)識(shí)別方法,包括以下步驟:
數(shù)據(jù)集準(zhǔn)備步驟:從文獻(xiàn)數(shù)據(jù)源篩選科技成果文檔,以及從技術(shù)門類框架中提取技術(shù)領(lǐng)域及其描述,生成技術(shù)領(lǐng)域文檔;
數(shù)據(jù)預(yù)處理步驟:對(duì)科技成果文檔和技術(shù)領(lǐng)域文檔進(jìn)行數(shù)據(jù)預(yù)處理;
分類模型樣本準(zhǔn)備步驟:計(jì)算每篇科技成果文檔與技術(shù)領(lǐng)域文檔之間的相似度,得到由科技成果文檔組成的分類模型樣本,以及每篇科技成果文檔所屬的技術(shù)領(lǐng)域標(biāo)簽;
多標(biāo)簽分類模型構(gòu)建步驟:根據(jù)分類模型樣本,構(gòu)建多標(biāo)簽分類模型;
技術(shù)領(lǐng)域識(shí)別步驟:利用多標(biāo)簽分類模型對(duì)未分類的科技成果文檔進(jìn)行分類,獲得技術(shù)領(lǐng)域。
所述的數(shù)據(jù)集準(zhǔn)備步驟中,文獻(xiàn)數(shù)據(jù)源包括專利數(shù)據(jù)庫(kù)、論文數(shù)據(jù)庫(kù)。
所述的數(shù)據(jù)集準(zhǔn)備步驟中,根據(jù)標(biāo)題、摘要和關(guān)鍵詞篩選科技成果文檔,使科技成果文檔與技術(shù)領(lǐng)域文檔具備相關(guān)性。
所述的數(shù)據(jù)預(yù)處理步驟中,采用中文分詞法對(duì)文檔進(jìn)行分詞、去停用詞、剔除高頻詞處理。
所述的分類模型樣本準(zhǔn)備步驟中,采用主題模型方法,計(jì)算技術(shù)領(lǐng)域文檔和科技成果文檔之間的相似度。
所述的多標(biāo)簽分類模型構(gòu)建步驟中,采用融合的多標(biāo)簽分類模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)上海市電力公司,未經(jīng)國(guó)網(wǎng)上海市電力公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010558503.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 防止技術(shù)開啟的鎖具新技術(shù)
- 技術(shù)評(píng)價(jià)裝置、技術(shù)評(píng)價(jià)程序、技術(shù)評(píng)價(jià)方法
- 防止技術(shù)開啟的鎖具新技術(shù)
- 視聽模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的方法和用戶接口、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫(kù)的技術(shù)推薦方法
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法
- 在帶有圖像輸入單元的便攜式終端中識(shí)別字符的方法
- 基于無(wú)線射頻RFID的檔案管理系統(tǒng)
- 一種防盜監(jiān)控系統(tǒng)的自動(dòng)識(shí)別控制設(shè)備
- 一種基于視頻識(shí)別的隧道運(yùn)行安全事件檢測(cè)系統(tǒng)
- 存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別系統(tǒng)及存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別配置方法
- 快遞物流件自動(dòng)識(shí)別分揀系統(tǒng)
- 一種基于無(wú)線技術(shù)的低功耗自動(dòng)識(shí)別終端設(shè)計(jì)方法
- 一種火車車輛、車號(hào)自動(dòng)識(shí)別裝置
- 一種火車車輛、車號(hào)自動(dòng)識(shí)別裝置及其使用方法
- 一種電商用條碼自動(dòng)識(shí)別裝置





