[發明專利]一種跨語言的科技論文自動推薦方法在審
| 申請號: | 202211111109.3 | 申請日: | 2022-09-13 |
| 公開(公告)號: | CN115952345A | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 繆建明;秦強;何新;沈丙振;韓宇星;滕林燃;呼子博 | 申請(專利權)人: | 中國兵器工業信息中心 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/83;G06F40/30;G06F40/289;G06F40/58 |
| 代理公司: | 中國兵器工業集團公司專利中心 11011 | 代理人: | 劉瑞東 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 科技 論文 自動 推薦 方法 | ||
本發明涉及一種跨語言的科技論文自動推薦方法,屬于自然語言處理領域。本發明從英文科技出版物網站中獲取英文科技論文的全文內容文本;提取參考文獻的內容以及對參考文獻的引證文本;對引證文本中的語句做語義分析;根據語義塊和句類表達式、語句中所包含的極性詞語以及傾向性評價模型對引證文本中的語句做傾向性分析,得到引證文本對參考文獻的傾向性態度;統計英文科技論文集合中論文對參考文獻的傾向性態度,根據傾向性態度,生成對英文科技論文集合中論文的推薦度;根據論文的推薦度獲得超過推薦度閾值的科技論文,利用公知的英中機器翻譯系統把英文科技論文的標題、作者、摘要、論文來源等翻譯成漢語,得到跨語言的科技論文推薦結果。
技術領域
本發明屬于自然語言處理領域,具體涉及一種跨語言的科技論文自動推薦方法。
背景技術
科學研究的成果之一就是學術論文的發表,而最新最前沿的科技論文通常都是在英文科技期刊上首先發表的。世界一流英文科技期刊的科技論文內容要求新、快、好,介紹新知識、新技術、新工藝、新觀點、新進展、新理論,對科研技術人員和普通受眾都有著巨大的影響力。由于語言的限制,這些英文科技論文及其對其他科技論文的引用和評價往往無法快速自動地被我國的一般科技工作者所獲取和利用,而且科研工作者要從如此多的科技學術論文中找到有價值的高質量的論文需要耗費大量時間。因此,在信息爆炸和海量數據的知識態勢下,迫切需要從這些英文科技期刊中自動獲取論文內容和信息,并克服語言的障礙翻譯為中文,同時利用計算機語言信息處理技術自動為科研工作者推薦相關的論文、自動給出對論文的推薦結果,這可以大大減輕我國科研工作者的檢索工作量,節省時間,從而提高文獻調研效率。
科技論文的推薦系統中最常用的指標之一是被引頻次,一般被引頻次不包括科技論文著者對自己所發表的其他論文的引用。被引頻次一方面反映了該科技論文被其他研究者的關注程度,他引次數越多說明關注者越多、論文的價值越大;另一方面被引頻次也有它自身的局限性。首先,最新發表的科技論文不可能獲得很高的引用頻次,而科研工作者往往希望獲得最新的有價值的科技論文,被引頻次不利于新發表論文的傳播和價值評價。其次,被引頻次只是從數量上進行了統計,沒有考慮科技論文來源期刊的質量。期刊質量一般用影響因子來衡量,影響因子越大說明期刊影響范圍越大或質量越高。在影響因子大或質量高的期刊發表的科技論文其質量也較高,被引頻次沒有反映出這方面的特性。第三,從科技論文的被引頻次中也得不到引用該科技論文的文獻對該科技論文的態度或評價,在某些文獻中會指出引用的科技論文的不足之處甚至是錯誤之處,當然也會對引用的科技論文進行肯定、贊同或推薦,從而體現出所引用的科技論文的影響或價值。
從上述說明可以看出,單純采用被引頻次來進行科技論文的推薦具有局限性。為了克服這一局限性,本領域技術人員提出了基于文本情感傾向性分析的推薦方法,該方法能夠直接從論文的語言陳述中獲取論文作者對引用的科技論文的評價或態度,給出被引科技論文的推薦度,從而更好地服務于科研工作者對論文檢索、論文評價、論文推薦的需求。現有技術中的文本情感傾向性分析方法可進一步分為兩類。一類是機器學習的方法,該方法通過已經標注好極性詞、評價對象、評價者、傾向性態度的文本(文本中的這些知識通常由下面所提到的語法分析加規則的方法獲取)進行訓練,得到統計模型的參數,再用訓練好的統計模型去分析新的文本,常見的模型和方法有SVM(支持向量機)、CRF(條件隨機場)、深度神經網絡(如Bi-LSTM)等。另一類是語法分析加規則的方法,即分析極性詞語所在的句子,得到詞語的句法成分,根據一定的評價模式或規則確定評價者、評價對象和傾向性態度,主要用到詞語詞性、句法主謂賓結構、推理規則等知識。上述兩類方法都有各自的劣勢。機器學習的方法需要大量的標注好的訓練語料文本,增加了前期準備的成本,此外在實際分析的文本中會有許多訓練語料中沒有出現的詞語,造成數據稀疏的處理難題。語法分析需要精確細致的語句結構分析結果,傳統語法的主謂賓結構還無法適應傾向性評價的多種模式,只能獲得部分簡單的、粗顆粒度的評價結果。本發明提出的基于概念語義的語句分析方法無需標注語料即可實現細粒度的對科技論文評價的結果,提供一種方便可行的跨語言的科技論文自動推薦方法。
發明內容
(一)要解決的技術問題
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國兵器工業信息中心,未經中國兵器工業信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211111109.3/2.html,轉載請聲明來源鉆瓜專利網。





