[發明專利]一種技術圖譜中技術領域的自動識別方法在審
| 申請號: | 202010558503.6 | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN111813933A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 華斌;宋平;陸啟宇;張琪祁;趙三珊 | 申請(專利權)人: | 國網上海市電力公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/289;G06F40/30 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 王懷瑜 |
| 地址: | 200122 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 技術 圖譜 領域 自動識別 方法 | ||
1.一種技術圖譜中技術領域的自動識別方法,其特征在于,包括以下步驟:
數據集準備步驟:從文獻數據源篩選科技成果文檔,以及從技術門類框架中提取技術領域及其描述,生成技術領域文檔;
數據預處理步驟:對科技成果文檔和技術領域文檔進行數據預處理;
分類模型樣本準備步驟:計算每篇科技成果文檔與技術領域文檔之間的相似度,得到由科技成果文檔組成的分類模型樣本,以及每篇科技成果文檔所屬的技術領域標簽;
多標簽分類模型構建步驟:根據分類模型樣本,構建多標簽分類模型;
技術領域識別步驟:利用多標簽分類模型對未分類的科技成果文檔進行分類,獲得技術領域。
2.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的數據集準備步驟中,文獻數據源包括專利數據庫、論文數據庫。
3.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的數據集準備步驟中,根據標題、摘要和關鍵詞篩選科技成果文檔,使科技成果文檔與技術領域文檔具備相關性。
4.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的數據預處理步驟中,采用中文分詞法對文檔進行分詞、去停用詞、剔除高頻詞處理。
5.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的分類模型樣本準備步驟中,采用主題模型方法,計算技術領域文檔和科技成果文檔之間的相似度。
6.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的多標簽分類模型構建步驟中,采用融合的多標簽分類模型。
7.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的融合的多標簽分類模型采用MLRW算法、MLKNN算法和BPMLL算法在相同的訓練集上訓練多標簽分類模型,根據分類效果確定投票權值,對測試集應用三種多標簽分類模型進行多標簽分類預測,再對預測結果進行加權投票,根據閾值從中選取標簽作為文檔的類標簽集。
8.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的多標簽分類模型構建步驟還包括:利用測試集,對分類模型進行評估和反饋學習,從而選用最優模型進行分類。
9.根據權利要求8所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,采用Hamming Loss、One-Error、Ranking Loss、Average Precision評估指標對分類模型進行評估。
10.根據權利要求1所述的一種技術圖譜中技術領域的自動識別方法,其特征在于,所述的所述的多標簽分類模型構建步驟中,每個科技成果文檔對應兩個以上技術領域標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網上海市電力公司,未經國網上海市電力公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010558503.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于治療下肢脈管系統的設備和方法
- 下一篇:一種貫流風葉的前模芯調整機構





