[發明專利]一種新術語自動發現識別方法有效
| 申請號: | 201811099604.0 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN109344402B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 劉偉;吳雯娜;王星;雷曉 | 申請(專利權)人: | 中國科學技術信息研究所 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/216;G06F40/242 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 梁艷 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 術語 自動 發現 識別 方法 | ||
1.一種新術語自動發現識別方法,其特征在于,包括如下步驟:
S1,從文獻信息中獲取其中的關鍵詞信息和用于對關鍵詞進行處理的相關信息;
S2,根據S1中得到的每一條關鍵詞記錄,對不規范的關鍵詞進行清洗,得到候選新術語;
S3,對S2中得到的候選新術語進行詞頻統計;
S4,根據S3中得到的詞頻統計結果,將低頻候選新術語從候選新術語表中刪除;
S5,對候選新術語進行詞頻分析,得到候選新術語的綜合指數;
S6,將S5中計算得到的綜合指數與設定的閾值進行比較,符合條件的綜合指數對應的候選新術語為新術語;
S5中所述得到候選新術語的綜合指數具體為:利用候選新術語總詞頻、候選新術語在各學科上的詞頻分布、候選新術語歷年詞頻變化趨勢、以及候選新術語的影響因子指標,分別計算候選新術語的被關注指數、候選新術語在各學科上的分布指數和候選新術語近十年的發展指數,綜合被關注指數、分布指數和發展指數,對候選新術語進行評估,計算候選新術語的綜合指數;
其中,候選新術語的被關注指數s(t)等于候選新術語t的總詞頻;
候選新術語t在各學科上的分布指數d(t),按照公式(1)進行計算:
其中,subi(t)是指第i個二級學科分類下候選新術語t的詞頻,是指候選新術語t在二級學科分類下的平均詞頻,設二級學科分類共有n個,每個候選新術語的二級學科分類下的詞頻已經在上述步驟中得到;
候選新術語t近十年的發展指數e(t),按照公式(2)進行計算:
其中,yi(t)是指候選新術語t在第i年份的詞頻,cy是指當前的年份;
候選新術語t的綜合指數NT(t),按照公式(3)進行計算:
NT(t)=a×log10s(t)+b×log10d(t)+c×log10e(t)??(3)
其中,a=0.5,b=0.3,c=1。
2.根據權利要求1所述的新術語自動發現識別方法,其特征在于,S1包括:中文期刊文獻信息獲取、中文期刊文獻信息清理、中文期刊影響因子補加、關鍵詞切分、學科分類切分和學科分類歸齊。
3.根據權利要求1所述的新術語自動發現識別方法,其特征在于,S2包括:刪除關鍵詞中有亂碼的記錄,刪除關鍵詞首尾的空格和不可見字符,刪除關鍵詞中無漢字和英文的記錄,將記錄中的全角字符統一為半角,刪除關鍵詞中的無意義的標點符號。
4.根據權利要求1所述的新術語自動發現識別方法,其特征在于,S3包括步驟:生成候選新術語表;統計候選新術語總詞頻;統計候選新術語在各學科上的詞頻;統計候選新術語近十年的詞頻。
5.根據權利要求4所述的新術語自動發現識別方法,其特征在于,S4具體為,從術語總詞頻表中,將總詞頻低的候選新術語篩選出來,然后將這些低頻候選新術語從候選新術語表中刪除。
6.根據權利要求1所述的新術語自動發現識別方法,其特征在于,S6具體為:設定實數閾值α,將綜合指數大于α的候選新術語作為新術語,或,設定自然數閾值n,根據S5中計算得到的綜合指數,按照從高到低的順序對候選新術語進行排序,將排序中的前n個作為新術語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術信息研究所,未經中國科學技術信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811099604.0/1.html,轉載請聲明來源鉆瓜專利網。





